論文の概要: On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10625v1
- Date: Sat, 15 Jun 2024 13:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:33:44.145837
- Title: On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける忠実連鎖推論の硬さについて
- Authors: Sree Harsha Tanneru, Dan Ley, Chirag Agarwal, Himabindu Lakkaraju,
- Abstract要約: 大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
- 参考スコア(独自算出の注目度): 25.029579061612456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly being employed in real-world applications in critical domains such as healthcare, it is important to ensure that the Chain-of-Thought (CoT) reasoning generated by these models faithfully captures their underlying behavior. While LLMs are known to generate CoT reasoning that is appealing to humans, prior studies have shown that these explanations do not accurately reflect the actual behavior of the underlying LLMs. In this work, we explore the promise of three broad approaches commonly employed to steer the behavior of LLMs to enhance the faithfulness of the CoT reasoning generated by LLMs: in-context learning, fine-tuning, and activation editing. Specifically, we introduce novel strategies for in-context learning, fine-tuning, and activation editing aimed at improving the faithfulness of the CoT reasoning. We then carry out extensive empirical analyses with multiple benchmark datasets to explore the promise of these strategies. Our analyses indicate that these strategies offer limited success in improving the faithfulness of the CoT reasoning, with only slight performance enhancements in controlled scenarios. Activation editing demonstrated minimal success, while fine-tuning and in-context learning achieved marginal improvements that failed to generalize across diverse reasoning and truthful question-answering benchmarks. In summary, our work underscores the inherent difficulty in eliciting faithful CoT reasoning from LLMs, suggesting that the current array of approaches may not be sufficient to address this complex challenge.
- Abstract(参考訳): 大きな言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されているため、これらのモデルによって生成されるチェーン・オブ・ソート(CoT)推論が、その基盤となる振る舞いを忠実に捉えていることを保証することが重要である。
LLMは、人間にアピールするCoT推論を生成することが知られているが、以前の研究では、これらの説明は、基礎となるLCMの実際の振る舞いを正確に反映していないことが示されている。
本研究では,LLM が生成する CoT 推論の忠実性を高めるため,LLM の動作を制御し,文脈学習,微調整,アクティベーション編集という,広義の3つのアプローチの約束について検討する。
具体的には,CoT推論の忠実度向上を目的とした,文脈内学習,微調整,アクティベーション編集のための新しい手法を提案する。
次に、複数のベンチマークデータセットを用いて広範な実験分析を行い、これらの戦略の可能性を探求する。
分析の結果,これらの戦略はCoT推論の忠実性向上に限定的な成功をもたらし,制御シナリオにおける性能向上はわずかであることがわかった。
アクティベーションの編集は、最小限の成功を示し、微調整と文脈学習は、様々な推論と真正な質問答えベンチマークで一般化できなかった限界的な改善を達成した。
まとめると、我々の研究は、LLMから忠実なCoT推論を引き出すのに固有の困難さを浮き彫りにして、現在の一連のアプローチがこの複雑な課題に対処するには不十分かもしれないことを示唆している。
関連論文リスト
- Thought-Like-Pro: Enhancing Reasoning of Large Language Models through Self-Driven Prolog-based Chain-of-Though [31.964412924094656]
大規模言語モデル(LLM)は汎用アシスタントとして非常に優れた性能を示している。
多様な推論タスクにおける学習と一般化を容易にする新しい学習フレームワークTHOUGHT-LIKE-PROを導入する。
実験結果から,本手法はLLMの推論能力を大幅に向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-18T18:52:10Z) - ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis [20.24915029448926]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、賞賛できる成果を達成している。
これらの課題は、多段階の推論を必要とする暗黙の関係の存在から生じる。
本稿では,エンティティ間の関係を捉えることで,LLMのコンテキスト理解を支援する新しいアプローチであるERA-CoTを提案する。
論文 参考訳(メタデータ) (2024-03-11T17:18:53Z) - An Enhanced Prompt-Based LLM Reasoning Scheme via Knowledge Graph-Integrated Collaboration [7.3636034708923255]
本研究では,知識グラフ(KG)と大規模言語モデル(LLM)の緊密な協調を含む協調学習自由推論手法を提案する。
このような協調的な手法により、より信頼性の高い知識に基づく推論を実現し、推論結果の追跡を容易にする。
論文 参考訳(メタデータ) (2024-02-07T15:56:17Z) - K-Level Reasoning with Large Language Models [80.13817747270029]
急速に発展する環境における意思決定のための大規模言語モデル(LLM)の動的推論機能について検討する。
実世界の動的意思決定の複雑さを反映した2つのゲーム理論に基づくパイロットチャレンジを導入する。
これらの課題は明確に定義されており、LLMの動的推論能力の明確で制御可能で正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - A Principled Framework for Knowledge-enhanced Large Language Model [58.1536118111993]
大規模言語モデル(LLM)は汎用性があるが、深い信頼性のある推論を必要とするタスクに悩まされることが多い。
本稿では、知識を効果的に固定し、閉ループ推論プロセスを用いるLLMを作成するための厳密な設計のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-18T18:10:02Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。