Fugu-MT 論文翻訳(概要): Dissociation of Faithful and Unfaithful Reasoning in LLMs

論文の概要: Dissociation of Faithful and Unfaithful Reasoning in LLMs

arxiv url: http://arxiv.org/abs/2405.15092v2
Date: Mon, 2 Sep 2024 22:40:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 18:11:10.919571
Title: Dissociation of Faithful and Unfaithful Reasoning in LLMs
Title（参考訳）: LLMにおける忠実で不誠実な推論の解離
Authors: Evelyn Yee, Alice Li, Chenyu Tang, Yeon Ho Jung, Ramamohan Paturi, Leon Bergen,
Abstract要約: 思考の連鎖における誤りから大言語モデル(LLM)がいかに回復するかを検討する。思考の連鎖(Chain of Thought)において、不当な推論テキストにもかかわらず、モデルが正しい答えに到達すると、不誠実な証拠が見つかる。
参考スコア（独自算出の注目度）: 2.4893095725361922
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) often improve their performance in downstream tasks when they generate Chain of Thought reasoning text before producing an answer. We investigate how LLMs recover from errors in Chain of Thought. Through analysis of error recovery behaviors, we find evidence for unfaithfulness in Chain of Thought, which occurs when models arrive at the correct answer despite invalid reasoning text. We identify factors that shift LLM recovery behavior: LLMs recover more frequently from obvious errors and in contexts that provide more evidence for the correct answer. Critically, these factors have divergent effects on faithful and unfaithful recoveries. Our results indicate that there are distinct mechanisms driving faithful and unfaithful error recoveries. Selective targeting of these mechanisms may be able to drive down the rate of unfaithful reasoning and improve model interpretability.
Abstract（参考訳）: 大規模言語モデル(LLM)は、回答を生成する前に思考の連鎖推論テキストを生成するとき、ダウンストリームタスクのパフォーマンスを改善することが多い。思考の連鎖の誤りからLLMがいかに回復するかを考察する。誤り回復行動の分析を通じて、不当な推論テキストにもかかわらず、モデルが正しい回答に到達したときに発生する、思考の連鎖の不誠実さの証拠を見出す。 LLMの回復行動を変える要因は, 明らかな誤りや, 正しい回答の証拠となる状況から, より頻繁に回復する。批判的に、これらの要因は忠実で不誠実な回復に異なる影響を及ぼす。以上の結果から,不誠実かつ不誠実な誤り回復を誘発するメカニズムが明らかとなった。これらのメカニズムの選択的ターゲティングは、不誠実な推論の速度を下げ、モデルの解釈可能性を改善することができるかもしれない。

関連論文リスト

Causal Reflection with Language Models [0.276240219662896]
本稿では,因果関係を状態,行動,時間,摂動の動的関数として明示的にモデル化するフレームワークCausal Reflectionを紹介する。我々は,予測結果と観測結果のミスマッチを識別し,因果仮説を生成し,エージェントの内部モデルを改訂する形式的リフレクション機構を定義する。我々の枠組みは、進化する環境における因果的理解を適応し、自己修正し、伝達できる因果的反射エージェントの理論的基礎を定めている。
論文参考訳（メタデータ） (2025-08-06T14:44:23Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Misaligning Reasoning with Answers -- A Framework for Assessing LLM CoT Robustness [3.9930400744726273]
我々は,回答と推論の関係を調べるために,MATCHAという新しい評価フレームワークを設計する。教育や医療といった分野では、推論は信頼性をモデル化するための鍵となる。以上の結果から,LLMは論理的タスクよりも多段階・常識的タスクに対する入力摂動の脆弱性が大きいことが示唆された。
論文参考訳（メタデータ） (2025-05-23T02:42:16Z)
Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps [39.759594479826454]
入力推論チェーンの微妙なエラーに対するモデル推論の脆弱性について検討する。この脆弱性は、操作された計算結果を含む推論トークンが提示されたモデルが正しい推論ステップを無視し、その代わりに誤った結果を採用する傾向がある。我々の研究は、推論の堅牢性を理解することを強化し、推論集約アプリケーションに対するセキュリティ上の配慮を強調します。
論文参考訳（メタデータ） (2025-03-25T03:43:11Z)
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.093659272414527]
本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。 LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-03-21T13:20:39Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback [14.120154004011084]
LLM(Large Language Models)はしばしば幻覚と呼ばれる誤った出力を生成する。知識フィードバックによる強化学習(Reinforcement Learning from Knowledge Feedback, RLKF)と呼ばれる新しいアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-27T08:39:56Z)
How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
論文参考訳（メタデータ） (2024-02-25T10:13:04Z)
Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文参考訳（メタデータ） (2024-02-12T04:32:33Z)
Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文参考訳（メタデータ） (2024-01-04T00:32:33Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文参考訳（メタデータ） (2023-05-23T17:04:25Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。