Fugu-MT 論文翻訳(概要): The Logic Traps in Evaluating Post-hoc Interpretations

論文の概要: The Logic Traps in Evaluating Post-hoc Interpretations

arxiv url: http://arxiv.org/abs/2109.05463v1
Date: Sun, 12 Sep 2021 08:50:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-14 16:15:56.260782
Title: The Logic Traps in Evaluating Post-hoc Interpretations
Title（参考訳）: ポストホック解釈評価における論理トラップ
Authors: Yiming Ju, Yuanzhe Zhang, Zhao Yang, Zhongtao Jiang, Kang Liu and Jun Zhao
Abstract要約: ポストホック解釈は、トレーニングされたモデルを説明し、モデルがどのように決定に達するかを明らかにすることを目的としている。既存の評価手法にはいくつかの重要なロジックトラップがあり、ほとんどの研究で無視されている。私たちはこれらの罠を無視し、断固として結論を引き出すのではなく、明確にすべきである、と私たちは主張する。
参考スコア（独自算出の注目度）: 14.46583737001333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Post-hoc interpretation aims to explain a trained model and reveal how the model arrives at a decision. Though research on post-hoc interpretations has developed rapidly, one growing pain in this field is the difficulty in evaluating interpretations. There are some crucial logic traps behind existing evaluation methods, which are ignored by most works. In this opinion piece, we summarize four kinds evaluation methods and point out the corresponding logic traps behind them. We argue that we should be clear about these traps rather than ignore them and draw conclusions assertively.
Abstract（参考訳）: ポストホック解釈は、トレーニングされたモデルを説明し、モデルがどのように決定に達するかを明らかにすることを目的としている。ポストホック解釈の研究は急速に進んでいるが、この分野での痛みは解釈の評価が難しいことである。既存の評価メソッドには重要なロジックトラップがいくつかあるが、ほとんどの作業では無視されている。本稿では,4種類の評価手法を要約し,その背後にある論理トラップを指摘する。我々はこれらの罠を無視し、断固として結論を引き出すのではなく、明確にすべきであると主張する。

関連論文リスト

Thought Anchors: Which LLM Reasoning Steps Matter? [3.4384069916863913]
文レベルでの推論トレースの分析は、推論過程を理解するための有望なアプローチである、と我々は主張する。それぞれの手法は、思考のアンカーの存在を証明し、より重要視された推論ステップを提供する。本稿では,モデルがどのように多段階の推論を行うかを示す手法間の収束パターンを示すケーススタディを提案する。
論文参考訳（メタデータ） (2025-06-23T21:28:45Z)
Evaluating Social Biases in LLM Reasoning [19.824838766883534]
本稿では,DeepSeek-R1 の 8B と 32B の変種を,BBQ データセット上の命令調整版と比較した。我々の知る限りでは、この実証的研究は、LLM推論におけるバイアス問題を初めて評価するものである。
論文参考訳（メタデータ） (2025-02-21T10:16:07Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Revisiting the robustness of post-hoc interpretability methods [1.5020330976600738]
説明可能な人工知能(XAI)におけるポストホック解釈可能性法の役割ポストホックの解釈可能性の異なる手法は、しばしば異なる結果をもたらし、その正確性に疑問を投げかける。本稿では,ポストホック解釈可能性法を詳細に評価するためのアプローチと2つの新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-29T03:55:52Z)
Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文参考訳（メタデータ） (2024-06-27T22:08:22Z)
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文参考訳（メタデータ） (2024-02-05T18:25:51Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Preventing Language Models From Hiding Their Reasoning [0.0]
大規模言語モデル(LLM)は、複雑な問題に対する答えを生成するための推論の中間ステップの恩恵を受けることが多い。この研究では、推論の中間段階が不信である可能性のある1つの潜在的方法、すなわち符号化推論に焦点を当てる。言語モデルは、ユーザが推論の中間ステップを理解せずに、符号化推論を利用してより高い性能を得るように訓練できることを示す。
論文参考訳（メタデータ） (2023-10-27T22:02:29Z)
Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文参考訳（メタデータ） (2023-10-23T12:40:41Z)
Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。 LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文参考訳（メタデータ） (2023-10-23T01:47:29Z)
Counterfactuals of Counterfactuals: a back-translation-inspired approach to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。本稿では,新しい逆翻訳に基づく評価手法を提案する。本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文参考訳（メタデータ） (2023-05-26T16:04:28Z)
Abductive Commonsense Reasoning Exploiting Mutually Exclusive Explanations [118.0818807474809]
帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。自然言語処理における帰納的推論のための既存のアプローチは、しばしば監督のために手動で生成されたアノテーションに依存している。この研究は、ある文脈に対して、説明のサブセットのみが正しいという事実を活用する、帰納的コモンセンス推論のアプローチを提案する。
論文参考訳（メタデータ） (2023-05-24T01:35:10Z)
Logical Satisfiability of Counterfactuals for Faithful Explanations in NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。これは、説明に表される論理述語に基づいて、反実仮説を生成する。そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文参考訳（メタデータ） (2022-05-25T03:40:59Z)
Are Interpretations Fairly Evaluated? A Definition Driven Pipeline for Post-Hoc Interpretability [54.85658598523915]
我々は,解釈の忠実性を評価する前に,解釈を明確に定義することを提案する。解釈手法は,ある評価基準の下で異なる性能を示すが,その差は解釈の品質や忠実さから生じるものではない。
論文参考訳（メタデータ） (2020-09-16T06:38:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。