論文の概要: The Logic Traps in Evaluating Post-hoc Interpretations
- arxiv url: http://arxiv.org/abs/2109.05463v1
- Date: Sun, 12 Sep 2021 08:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:15:56.260782
- Title: The Logic Traps in Evaluating Post-hoc Interpretations
- Title(参考訳): ポストホック解釈評価における論理トラップ
- Authors: Yiming Ju, Yuanzhe Zhang, Zhao Yang, Zhongtao Jiang, Kang Liu and Jun
Zhao
- Abstract要約: ポストホック解釈は、トレーニングされたモデルを説明し、モデルがどのように決定に達するかを明らかにすることを目的としている。
既存の評価手法にはいくつかの重要なロジックトラップがあり、ほとんどの研究で無視されている。
私たちはこれらの罠を無視し、断固として結論を引き出すのではなく、明確にすべきである、と私たちは主張する。
- 参考スコア(独自算出の注目度): 14.46583737001333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-hoc interpretation aims to explain a trained model and reveal how the
model arrives at a decision. Though research on post-hoc interpretations has
developed rapidly, one growing pain in this field is the difficulty in
evaluating interpretations. There are some crucial logic traps behind existing
evaluation methods, which are ignored by most works. In this opinion piece, we
summarize four kinds evaluation methods and point out the corresponding logic
traps behind them. We argue that we should be clear about these traps rather
than ignore them and draw conclusions assertively.
- Abstract(参考訳): ポストホック解釈は、トレーニングされたモデルを説明し、モデルがどのように決定に達するかを明らかにすることを目的としている。
ポストホック解釈の研究は急速に進んでいるが、この分野での痛みは解釈の評価が難しいことである。
既存の評価メソッドには重要なロジックトラップがいくつかあるが、ほとんどの作業では無視されている。
本稿では,4種類の評価手法を要約し,その背後にある論理トラップを指摘する。
我々はこれらの罠を無視し、断固として結論を引き出すのではなく、明確にすべきであると主張する。
関連論文リスト
- Revisiting the robustness of post-hoc interpretability methods [1.5020330976600738]
説明可能な人工知能(XAI)におけるポストホック解釈可能性法の役割
ポストホックの解釈可能性の異なる手法は、しばしば異なる結果をもたらし、その正確性に疑問を投げかける。
本稿では,ポストホック解釈可能性法を詳細に評価するためのアプローチと2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-29T03:55:52Z) - Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文 参考訳(メタデータ) (2024-06-27T22:08:22Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Preventing Language Models From Hiding Their Reasoning [0.0]
大規模言語モデル(LLM)は、複雑な問題に対する答えを生成するための推論の中間ステップの恩恵を受けることが多い。
この研究では、推論の中間段階が不信である可能性のある1つの潜在的方法、すなわち符号化推論に焦点を当てる。
言語モデルは、ユーザが推論の中間ステップを理解せずに、符号化推論を利用してより高い性能を得るように訓練できることを示す。
論文 参考訳(メタデータ) (2023-10-27T22:02:29Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Abductive Commonsense Reasoning Exploiting Mutually Exclusive
Explanations [118.0818807474809]
帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。
自然言語処理における帰納的推論のための既存のアプローチは、しばしば監督のために手動で生成されたアノテーションに依存している。
この研究は、ある文脈に対して、説明のサブセットのみが正しいという事実を活用する、帰納的コモンセンス推論のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:35:10Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Are Interpretations Fairly Evaluated? A Definition Driven Pipeline for
Post-Hoc Interpretability [54.85658598523915]
我々は,解釈の忠実性を評価する前に,解釈を明確に定義することを提案する。
解釈手法は,ある評価基準の下で異なる性能を示すが,その差は解釈の品質や忠実さから生じるものではない。
論文 参考訳(メタデータ) (2020-09-16T06:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。