論文の概要: A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models
- arxiv url: http://arxiv.org/abs/2408.08590v1
- Date: Fri, 16 Aug 2024 07:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 16:17:46.681746
- Title: A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models
- Title(参考訳): 自己回帰型言語モデルにおけるソロジカル推論の機械論的解釈
- Authors: Geonhee Kim, Marco Valentino, André Freitas,
- Abstract要約: 自己回帰言語モデル(LM)における論理的推論に関する最近の研究は、そのようなモデルが事前学習中に体系的推論原理を学習できるかという議論を引き起こしている。
本稿では, 内部力学の理解を深めるため, LMにおけるシロメトリクス推論の機械論的解釈を提案する。
- 参考スコア(独自算出の注目度): 13.59675117792588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on logical reasoning in auto-regressive Language Models (LMs) have sparked a debate on whether such models can learn systematic reasoning principles during pre-training or merely exploit superficial patterns in the training data. This paper presents a mechanistic interpretation of syllogistic reasoning in LMs to further enhance our understanding of internal dynamics. Specifically, we present a methodology for circuit discovery aimed at disentangling content-independent reasoning mechanisms from world knowledge acquired during pre-training. Through two distinct intervention methods, we uncover a sufficient and necessary circuit involving middle-term suppression that elucidates how LMs transfer information to derive valid conclusions from premises. Furthermore, we investigate how belief biases manifest in syllogistic reasoning, finding evidence of partial contamination from additional attention heads responsible for encoding commonsense and contextualized knowledge. Finally, we explore the generalization of the discovered mechanisms across various syllogistic schemes and model sizes, finding that the identified circuit is sufficient and necessary for all the schemes on which the model achieves high downstream accuracy ($\geq$ 60\%). Overall, our findings suggest that LMs indeed learn transferable content-independent reasoning mechanisms, but that, at the same time, such mechanisms do not involve generalisable and abstract logical primitives, being susceptible to contamination by the same world knowledge acquired during pre-training.
- Abstract(参考訳): 自己回帰言語モデル(LM)における論理的推論に関する最近の研究は、そのようなモデルが事前学習中に体系的推論原理を学習できるか、あるいは単にトレーニングデータにおける表面的パターンを活用できるかという議論を引き起こしている。
本稿では, 内部力学の理解を深めるため, LMにおけるシロメトリクス推論の機械論的解釈を提案する。
具体的には、事前学習中に得られた世界知識から、コンテンツに依存しない推論メカニズムを遠ざけることを目的とした回路発見手法を提案する。
2つの異なる介入手法により、LMが情報をどのように伝達し、前提から妥当な結論を導出するかを解明する、中期的抑制を伴う十分かつ必要な回路を明らかにする。
さらに,シロメトリクス的推論において信念バイアスがどのように現れるのかを考察し,コモンセンスや文脈的知識の符号化に寄与する追加の注意頭から部分的な汚染の証拠を見出した。
最後に、同定されたメカニズムを様々なシロメクススキームとモデルサイズにまたがって一般化し、同定された回路は、モデルが下流の精度を高い精度で達成するすべてのスキームに十分かつ必要であることを示す($60 %)。
総じて, LMは, 伝達可能な内容非依存の推論機構を学習するが, 同時に, それらのメカニズムは一般的かつ抽象的な論理的プリミティブを伴わず, 事前学習中に獲得した同じ世界知識によって汚染される可能性が示唆された。
関連論文リスト
- A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。
思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。
以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-17T08:59:04Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability [30.76910454663951]
因果抽象化は機械的解釈可能性の理論的基盤を提供する。
我々の貢献は、メカニズム置換から任意のメカニズム変換への因果的抽象化の理論の一般化である。
論文 参考訳(メタデータ) (2023-01-11T20:42:41Z) - Does Pre-training Induce Systematic Inference? How Masked Language
Models Acquire Commonsense Knowledge [91.15301779076187]
プレトレーニング中のBERTモデルのミニバッチに言語知識を導入し、モデルがサポート対象の推論にどの程度うまく一般化するかを評価する。
一般化は事前学習の過程では改善せず, 帰納的, 体系的推論ではなく, 表面的, 共起的パターンからコモンセンス知識が獲得されることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T03:13:04Z) - Abduction and Argumentation for Explainable Machine Learning: A Position
Survey [2.28438857884398]
本稿では, 推論の2つの原則形式として, 帰納法と論証法を提案する。
機械学習の中で彼らが果たせる基本的な役割を具体化します。
論文 参考訳(メタデータ) (2020-10-24T13:23:44Z) - Plausible Reasoning about EL-Ontologies using Concept Interpolation [27.314325986689752]
本稿では,モデル理論の明確な意味論に基づく帰納的機構を提案する。
我々は、カテゴリーベース誘導の認知モデルと密接に関連している強力なコモンセンス推論機構である推論に焦点を当てた。
論文 参考訳(メタデータ) (2020-06-25T14:19:41Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z) - Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。
具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文 参考訳(メタデータ) (2020-03-09T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。