論文の概要: Understanding and Patching Compositional Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2402.14328v1
- Date: Thu, 22 Feb 2024 06:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:17:28.911000
- Title: Understanding and Patching Compositional Reasoning in LLMs
- Title(参考訳): LLMにおける合成推論の理解とパッチング
- Authors: Zhaoyi Li, Gangwei Jiang, Hong Xie, Linqi Song, Defu Lian, Ying Wei
- Abstract要約: 本研究の目的は,言語モデルにおける構成的推論失敗の根本原因を明らかにすることである。
実験結果から着想を得たので,ロジットレンズを応用し,LLMの内部隠蔽状態を識別するための介入実験を行った。
このディープダイブは、暗黙の推論結果が実際に中間層内に存在することを明らかにし、最終的な明示的な推論結果を形成する上で、因果的な役割を担っている。
本研究は, 暗黙の推論結果の正確な生成とレバリングにおいて, リンチピンとして現れるマルチヘッド自己注意モジュール(MHSA)を, これらの層内に発見するものである。
- 参考スコア(独自算出の注目度): 44.417932112219546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have marked a revolutonary shift, yet they falter when faced with
compositional reasoning tasks. Our research embarks on a quest to uncover the
root causes of compositional reasoning failures of LLMs, uncovering that most
of them stem from the improperly generated or leveraged implicit reasoning
results. Inspired by our empirical findings, we resort to Logit Lens and an
intervention experiment to dissect the inner hidden states of LLMs. This deep
dive reveals that implicit reasoning results indeed surface within middle
layers and play a causative role in shaping the final explicit reasoning
results. Our exploration further locates multi-head self-attention (MHSA)
modules within these layers, which emerge as the linchpins in accurate
generation and leveraing of implicit reasoning results. Grounded on the above
findings, we develop CREME, a lightweight method to patch errors in
compositional reasoning via editing the located MHSA modules. Our empirical
evidence stands testament to CREME's effectiveness, paving the way for
autonomously and continuously enhancing compositional reasoning capabilities in
language models.
- Abstract(参考訳): LLMは、再起的なシフトを示すが、構成的推論タスクに直面した時に混乱する。
我々の研究は、LLMの構成的推論失敗の根本原因を解明し、そのほとんどは不適切な生成や暗黙的推論結果からのものであることを明らかにした。
実験結果から着想を得たので,ロジットレンズを応用し,LLMの内部隠蔽状態を識別するための介入実験を行った。
このディープダイブは、暗黙の推論結果が実際に中間層内に存在することを明らかにし、最終的な明示的な推論結果を形成する上で、因果的な役割を担っている。
本研究は, 暗黙の推論結果の正確な生成とレバリングにおいて, リンチピンとして現れるマルチヘッド自己注意モジュール(MHSA)の探索である。
以上の知見に基づいて,MHSA モジュールの編集による構成的推論における誤りの修正を行う軽量な CREME を開発した。
我々の経験的証拠は、CREMEの有効性の証明であり、言語モデルにおける自律的かつ継続的な構成的推論能力の向上の道を開くものである。
関連論文リスト
- Meaningful Learning: Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
それにもかかわらず、一般的な事実に支えられた単純な質問をタスクすると、LCMは一貫性のある正確な答えを提供しないことが多い。
このことは、LSMが真に推論しているのか、単に記憶しているだけなのか、という活発な議論を引き起こしている。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - LLMs with Chain-of-Thought Are Non-Causal Reasoners [34.18612597843633]
我々は,大規模言語モデルにおけるCoT/インストラクションと回答の因果関係を評価するために因果解析を用いる。
インプリードSCMと人間の推論とを比較することで,LLMと人間の推論プロセスの相違点を浮き彫りにする。
文脈内学習、教師付き微調整、人間のフィードバックに対する強化学習は因果関係に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Making Reasoning Matter: Measuring and Improving Faithfulness of
Chain-of-Thought Reasoning [42.16867530444306]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。
モデルの最終回答がどの程度、説明された推論ステップに忠実であるかは定かではない。
FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークである。
論文 参考訳(メタデータ) (2024-02-21T17:23:59Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for
Causality [22.00533107457377]
大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。
LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。
我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LSMを使用することを想定する。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。