論文の概要: Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2402.13950v4
- Date: Sun, 06 Oct 2024 17:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:39:56.775601
- Title: Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning
- Title(参考訳): 推論を重要視する:連鎖推論の忠実度の測定と改善
- Authors: Debjit Paul, Robert West, Antoine Bosselut, Boi Faltings,
- Abstract要約: 大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。
モデルの最終回答がどの程度、説明された推論ステップに忠実であるかは定かではない。
FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークである。
- 参考スコア(独自算出の注目度): 38.60086807496399
- License:
- Abstract: Large language models (LLMs) have been shown to perform better when asked to reason step-by-step before answering a question. However, it is unclear to what degree the model's final answer is faithful to the stated reasoning steps. In this paper, we perform a causal mediation analysis on twelve LLMs to examine how intermediate reasoning steps generated by the LLM influence the final outcome and find that LLMs do not reliably use their intermediate reasoning steps when generating an answer. To address this issue, we introduce FRODO, a framework to tailor small-sized LMs to generate correct reasoning steps and robustly reason over these steps. FRODO consists of an inference module that learns to generate correct reasoning steps using an implicit causal reward function and a reasoning module that learns to faithfully reason over these intermediate inferences using a counterfactual and causal preference objective. Our experiments show that FRODO significantly outperforms four competitive baselines. Furthermore, FRODO improves the robustness and generalization ability of the reasoning LM, yielding higher performance on out-of-distribution test sets. Finally, we find that FRODO's rationales are more faithful to its final answer predictions than standard supervised fine-tuning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。
しかし、モデルの最終回答がどの程度、記述された推論ステップに忠実であるかは定かではない。
本稿では,12個のLCMの因果媒介分析を行い,LLMが生成する中間推論ステップが最終結果にどのように影響するかを検証し,回答を生成する際に,その中間推論ステップを確実に利用しないことを確かめる。
この問題に対処するため、我々はFRODOを紹介します。FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークです。
FRODOは、暗黙の因果報酬関数を用いて正しい推論ステップを生成することを学習する推論モジュールと、反事実的および因果選好目的を用いてこれらの中間推論を忠実に推論することを学ぶ推論モジュールから構成される。
実験の結果,FRODOは4つの競争基準線を著しく上回っていることがわかった。
さらに、FRODOは、推理LMの堅牢性と一般化能力を向上し、アウト・オブ・ディストリビューション・テスト・セットの性能を向上させる。
最後に、FRODOの理性は、標準的な教師付き微調整よりも最終的な答え予測に忠実であることが分かる。
関連論文リスト
- MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
メタ推論スキルを必要とするプロセスベースのベンチマークを提案する。
MR-BENは、人間の専門家から収集された5,975の質問からなる総合的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering [46.41364317172677]
外部知識グラフに基づく推論の中間段階を扱うための検索探索対話手法FiDelisを提案する。
我々は、LLMの論理と常識推論を知識検索プロセスに組み込み、より正確なリコール性能を提供する。
論文 参考訳(メタデータ) (2024-05-22T17:56:53Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。