論文の概要: Think-to-Talk or Talk-to-Think? When LLMs Come Up with an Answer in Multi-Step Reasoning
- arxiv url: http://arxiv.org/abs/2412.01113v1
- Date: Mon, 02 Dec 2024 04:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:04.251746
- Title: Think-to-Talk or Talk-to-Think? When LLMs Come Up with an Answer in Multi-Step Reasoning
- Title(参考訳): シンク・トゥ・トーク・トゥ・シンク : マルチステップ推論におけるLLMの回答
- Authors: Keito Kudo, Yoichi Aoki, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Ana Brassard, Keisuke Sakaguchi, Kentaro Inui,
- Abstract要約: 記号的多段階推論における言語モデルの内部推論機構について検討する。
単純なサブプロブレムは連鎖開始前に解き、より複雑なマルチホップ計算はCoT中に行われる。
- 参考スコア(独自算出の注目度): 26.79907640964047
- License:
- Abstract: This study investigates the internal reasoning mechanism of language models during symbolic multi-step reasoning, motivated by the question of whether chain-of-thought (CoT) outputs are faithful to the model's internals. Specifically, we inspect when they internally determine their answers, particularly before or after CoT begins, to determine whether models follow a post-hoc "think-to-talk" mode or a step-by-step "talk-to-think" mode of explanation. Through causal probing experiments in controlled arithmetic reasoning tasks, we found systematic internal reasoning patterns across models; for example, simple subproblems are solved before CoT begins, and more complicated multi-hop calculations are performed during CoT.
- Abstract(参考訳): 本研究では,記号的多段階推論における言語モデルの内部推論機構について検討し,モデルの内部にチェーン・オブ・シント(CoT)出力が忠実であるかどうかという問題に動機づけられた。
具体的には、特にCoT開始前後の回答を社内でいつ判断するかを調べ、モデルがポストホックな "think-to-talk" モードに従うか、あるいはステップバイステップの "talk-to-think" モードで説明するかを判断する。
制御された算術的推論タスクにおける因果探索実験を通じて、モデル間の体系的な内部推論パターンを発見し、例えば、単純なサブプロブレムはCoT開始前に解き、より複雑なマルチホップ計算を行う。
関連論文リスト
- Measuring Faithfulness of Chains of Thought by Unlearning Reasoning Steps [32.60500043302544]
生成した推論のパラメトリック忠実度を測定するためのフレームワークであるFUR(Unlearning Reasoning Step)を提案する。
FURはモデルパラメータから推論ステップに含まれる情報を消去する。
FURは,CoTがパラメトリックに忠実であることを示す重要なステップを未学習にすることで,基礎となるモデルの予測を頻繁に変更可能であることを示す。
論文 参考訳(メタデータ) (2025-02-20T18:45:05Z) - Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - STOC-TOT: Stochastic Tree-of-Thought with Constrained Decoding for Complex Reasoning in Multi-Hop Question Answering [8.525847131940031]
マルチホップ質問応答(MHQA)は、複雑な質問に答えるために複数の通路から情報を検索し統合するモデルを必要とする。
近年のシステムでは、大規模言語モデルのパワーを活用し、証拠検索と推論のプロンプトを統合している。
MHQAの制約付き復号法であるSTOC-TOTを提案する。
論文 参考訳(メタデータ) (2024-07-04T07:17:53Z) - Distributional reasoning in LLMs: Parallel reasoning processes in multi-hop reasoning [8.609587510471943]
本稿では,大規模言語モデルにおける内部マルチホップ推論プロセスの新規かつ解釈可能な解析手法を提案する。
推論中、ネットワークの中間層は高度に解釈可能な埋め込みを生成する。
我々の発見は、LLMが推論タスクの解決に使っている戦略を明らかにするのに役立ち、人工知能から生まれる思考プロセスのタイプに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-19T21:36:40Z) - How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning [44.02173413922695]
理解の欠如は、CoT(Chain-of-Thought)の促進を促進するモデルの内部メカニズムに大きく影響する。
本研究では,CoT推論を一視点から示す大規模言語モデル内のサブ構造について検討する。
論文 参考訳(メタデータ) (2024-02-28T13:14:20Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale
Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。
提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文 参考訳(メタデータ) (2023-05-23T16:53:49Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。