論文の概要: Dissociation of Faithful and Unfaithful Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2405.15092v1
- Date: Thu, 23 May 2024 22:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:48:01.383229
- Title: Dissociation of Faithful and Unfaithful Reasoning in LLMs
- Title(参考訳): LLMにおける忠実で不誠実な推論の解離
- Authors: Evelyn Yee, Alice Li, Chenyu Tang, Yeon Ho Jung, Ramamohan Paturi, Leon Bergen,
- Abstract要約: 大規模言語モデル(LLM)は、回答を生成する前に思考の連鎖推論テキストを生成するとき、下流タスクのパフォーマンスを改善する。
本研究は,LLMが思考の連鎖の誤りからどのように回復するかを考察する。
- 参考スコア(独自算出の注目度): 2.4893095725361922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) improve their performance in downstream tasks when they generate Chain of Thought reasoning text before producing an answer. Our research investigates how LLMs recover from errors in Chain of Thought, reaching the correct final answer despite mistakes in the reasoning text. Through analysis of these error recovery behaviors, we find evidence for unfaithfulness in Chain of Thought, but we also identify many clear examples of faithful error recovery behaviors. We identify factors that shift LLM recovery behavior: LLMs recover more frequently from obvious errors and in contexts that provide more evidence for the correct answer. However, unfaithful recoveries show the opposite behavior, occurring more frequently for more difficult error positions. Our results indicate that there are distinct mechanisms driving faithful and unfaithful error recoveries. Our results challenge the view that LLM reasoning is a uniform, coherent process.
- Abstract(参考訳): 大規模言語モデル(LLM)は、回答を生成する前に思考の連鎖推論テキストを生成するとき、下流タスクのパフォーマンスを改善する。
本研究は,LLMが思考の連鎖の誤りからどのように回復するかを考察する。
これらの誤り回復行動の分析を通じて、思考の連鎖における不誠実性の証拠を見出すが、忠実な誤り回復行動の多くの明確な例も明らかにする。
LLMの回復行動を変える要因は, 明らかな誤りや, 正しい回答の証拠となる状況から, より頻繁に回復する。
しかし、不誠実な回復は逆の挙動を示し、より困難なエラー位置に対してより頻繁に起こる。
以上の結果から,不誠実かつ不誠実な誤り回復を誘発するメカニズムが明らかとなった。
LLM推論は一様で一貫性のあるプロセスである,という見解に反論する。
関連論文リスト
- Self-Reflection Outcome is Sensitive to Prompt Construction [1.3899663412994456]
自己回帰の結果は,素早い発話に敏感であることを示す。
誤りの特定に保守的なプロンプトを構築するための異なる方法を提案する。
本研究は,自己回帰作業における迅速な工学の重要性を強調した。
論文 参考訳(メタデータ) (2024-06-14T20:07:11Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。
Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。
説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。