Fugu-MT 論文翻訳(概要): A Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning

論文の概要: A Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning

arxiv url: http://arxiv.org/abs/2411.04105v4
Date: Thu, 19 Jun 2025 20:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 14:57:50.988373
Title: A Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning
Title（参考訳）: A Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning
Authors: Guan Zhe Hong, Nishanth Dikkala, Enming Luo, Cyrus Rashtchian, Xin Wang, Rina Panigrahy,
Abstract要約: 複数の事実を組み合わせて解を得る必要のある最小命題論理問題について検討する。この問題をMistral と Gemma モデルで研究することにより、最大27B のパラメータで、モデルがそのような論理問題を解くのに使用するコアコンポーネントを照らし出す。異なるレイヤにおける注意頭の役割について、きめ細かい洞察を提供する。
参考スコア（独自算出の注目度）: 16.65073455206535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the size and complexity of modern large language models (LLMs), it has proven challenging to uncover the underlying mechanisms that models use to solve reasoning problems. For instance, is their reasoning for a specific problem localized to certain parts of the network? Do they break down the reasoning problem into modular components that are then executed as sequential steps as we go deeper in the model? To better understand the reasoning capability of LLMs, we study a minimal propositional logic problem that requires combining multiple facts to arrive at a solution. By studying this problem on Mistral and Gemma models, up to 27B parameters, we illuminate the core components the models use to solve such logic problems. From a mechanistic interpretability point of view, we use causal mediation analysis to uncover the pathways and components of the LLMs' reasoning processes. Then, we offer fine-grained insights into the functions of attention heads in different layers. We not only find a sparse circuit that computes the answer, but we decompose it into sub-circuits that have four distinct and modular uses. Finally, we reveal that three distinct models -- Mistral-7B, Gemma-2-9B and Gemma-2-27B -- contain analogous but not identical mechanisms.
Abstract（参考訳）: 現代の大規模言語モデル(LLM)のサイズと複雑さのため、モデルが推論問題を解決するために使用するメカニズムを明らかにすることは困難であることが証明されている。例えば、ネットワークの特定の部分にローカライズされた特定の問題の原因は何か? 彼らは、推論問題をモジュラーコンポーネントに分解し、モデルをより深く進める際に、シーケンシャルなステップとして実行しますか? LLMの推論能力をよりよく理解するために,複数の事実を組み合わせる必要がある最小命題論理問題について検討する。この問題をMistral と Gemma モデルで研究することにより、最大27B のパラメータで、モデルがそのような論理問題を解くのに使用するコアコンポーネントを照らし出す。機械論的解釈可能性の観点から、我々は因果媒介分析を用いてLLMの推論過程の経路と構成要素を明らかにする。次に、異なるレイヤにおける注目ヘッドの機能に関する詳細な洞察を提供する。解答を演算するスパース回路を見つけるだけでなく、4つの異なるモジュラーな用途を持つサブ回路に分解する。最後に、3つの異なるモデル(Mistral-7B、Gemma-2-9B、Gemma-2-27B)が類似しているが同一のメカニズムではないことを明らかにした。

関連論文リスト

PHANTOM RECALL: When Familiar Puzzles Fool Smart Models [29.172155264798466]
GPT、Gemini、Claudeといった大規模言語モデル(LLM)は古典論理パズルの解法に長けていることが多い。最近の証拠は、これらのモデルは第一原理から推論するのではなく、記憶されたテンプレートにしばしば依存していることを示している。パズルの精度がほぼ完璧であるにもかかわらず、モデルは修正されていないものに対して人間を著しく過小評価している。
論文参考訳（メタデータ） (2025-10-13T18:09:50Z)
Think Smart, Not Hard: Difficulty Adaptive Reasoning for Large Audio Language Models [28.578488403845146]
大規模音声言語モデル(LALM)は、顕著な推論能力を示している。 LALMの難易度適応推論法を提案する。
論文参考訳（メタデータ） (2025-09-26T06:49:14Z)
Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features [0.0]
可変複素制約満足論理問題として,o1-mini,o3-mini,DeepSeek-R1,Claude 3.7 Sonnet,Gemini 2.5 Pro Preview,Grok 3 Mini Betaをグラフカラー化でテストする。誤り率比較とCoT/説明テキスト解析の両方から、RLLMはグラフのプロンプト記述に指定されていないエッジを幻覚させる傾向にあることを示す。
論文参考訳（メタデータ） (2025-05-17T21:55:12Z)
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution [59.39066657300045]
CoT(Chain-of-Thought)は、問題を逐次ステップに分解することで、大きな言語モデル(LLM)の推論を促進する。思考のシジー(Syzygy of Thoughts, SoT)は,CoTを補助的,相互関連的な推論経路を導入して拡張する新しいフレームワークである。 SoTはより深い論理的依存関係をキャプチャし、より堅牢で構造化された問題解決を可能にする。
論文参考訳（メタデータ） (2025-04-13T13:35:41Z)
Empowering LLMs with Logical Reasoning: A Comprehensive Survey [49.91445266392609]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な成功を収めた。近年の研究では、LLMの論理的推論能力にはまだ大きな課題があることがわかった。
論文参考訳（メタデータ） (2025-02-21T18:20:35Z)
How Do LLMs Perform Two-Hop Reasoning in Context? [76.79936191530784]
我々は合成二脚推論タスクで三層変圧器を訓練する。モデルが乱れをランダムに推測する方法を学習するための内部メカニズムを説明する。私たちの研究は、トレーニング中に推論がどのように現れるかについて、新たな洞察を与えてくれます。
論文参考訳（メタデータ） (2025-02-19T17:46:30Z)
Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文参考訳（メタデータ） (2025-02-13T07:19:05Z)
Think-to-Talk or Talk-to-Think? When LLMs Come Up with an Answer in Multi-Hop Arithmetic Reasoning [29.193976295725637]
問題文を最初に読み取ることで、LMが内部的にサブ・全体問題を解決するかどうかを調査する。本実験は,LMを基盤とした系統的漸進的推論戦略を明らかにする。生成された推論チェーンは、モデルの内部計算の忠実なリフレクションと見なすことができる。
論文参考訳（メタデータ） (2024-12-02T04:35:54Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers [16.26331213222281]
アーキテクチャ設計の選択がトランスフォーマーが実装し学習できるソリューションの空間にどのように影響するかを検討する。小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。
論文参考訳（メタデータ） (2024-07-16T09:48:10Z)
Distributional reasoning in LLMs: Parallel reasoning processes in multi-hop reasoning [8.609587510471943]
本稿では,大規模言語モデルにおける内部マルチホップ推論プロセスの新規かつ解釈可能な解析手法を提案する。推論中、ネットワークの中間層は高度に解釈可能な埋め込みを生成する。我々の発見は、LLMが推論タスクの解決に使っている戦略を明らかにするのに役立ち、人工知能から生まれる思考プロセスのタイプに関する洞察を提供する。
論文参考訳（メタデータ） (2024-06-19T21:36:40Z)
Understanding Transformer Reasoning Capabilities via Graph Algorithms [25.08208816144745]
我々は、トランスフォーマースケーリングレギュレーションがアルゴリズムの様々なクラスを完璧に解けるかを検討する。その結果、トランスフォーマーは多くのグラフ推論タスクで優れており、特殊なグラフニューラルネットワークよりも優れています。
論文参考訳（メタデータ） (2024-05-28T18:31:14Z)
Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T07:41:26Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
$\ exttt{LM}^\ exttt{2}$: A Simple Society of Language Models Solves Complex Reasoning [22.810441504080703]
大規模言語モデル(LLMS)は複雑で多段階の推論をしばしば失う。本稿では,これらの課題に対処するためにLM2を提案する。 LM2は分解、解法、検証を3つの異なる言語モデルにモジュール化する。
論文参考訳（メタデータ） (2024-04-02T19:23:10Z)
Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models [0.13194391758295113]
本稿では,エンコーダのみのトランスフォーマー言語モデル (LM) が論理規則に従ってどの程度理にかなっているかを検討する。様々なデータセットの論理的妥当性を決定するために,エンコーダのみのLMを適度に訓練できることを示す。これらのデータセット上で微調整されたモデルをクロスプロブすることで、LMはそれらの仮定的論理的推論能力の伝達が困難であることを示す。
論文参考訳（メタデータ） (2023-12-18T21:42:34Z)
Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。 LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文参考訳（メタデータ） (2023-10-23T01:47:29Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)
How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文参考訳（メタデータ） (2023-03-07T21:42:17Z)
Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-30T13:44:41Z)
Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文参考訳（メタデータ） (2022-06-09T06:30:17Z)
End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文参考訳（メタデータ） (2022-02-11T18:43:28Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)
AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文参考訳（メタデータ） (2021-04-14T02:53:32Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。