論文の概要: Who Reasons in the Large Language Models?
- arxiv url: http://arxiv.org/abs/2505.20993v1
- Date: Tue, 27 May 2025 10:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.579768
- Title: Who Reasons in the Large Language Models?
- Title(参考訳): 大規模言語モデルにおける誰の理由か?
- Authors: Jie Shao, Jianxin Wu,
- Abstract要約: 十分に訓練された大言語モデルにおける推論能力は、Transformerのマルチヘッド自己認識機構における出力投影モジュール(oproj)に起因していることを示す。
我々は、オプロイが推論を可能にする上で中心的な役割を果たすことを示す状況証拠と経験的証拠の両方を提供し、他のモジュールはより流動的な対話に寄与する。
- 参考スコア(独自算出の注目度): 18.521142439429635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive performance of large language models (LLMs), the process of endowing them with new capabilities--such as mathematical reasoning--remains largely empirical and opaque. A critical open question is whether reasoning abilities stem from the entire model, specific modules, or are merely artifacts of overfitting. In this work, we hypothesize that the reasoning capabilities in well-trained LLMs are primarily attributed to the output projection module (oproj) in the Transformer's multi-head self-attention (MHSA) mechanism. To support this hypothesis, we introduce Stethoscope for Networks (SfN), a suite of diagnostic tools designed to probe and analyze the internal behaviors of LLMs. Using SfN, we provide both circumstantial and empirical evidence suggesting that oproj plays a central role in enabling reasoning, whereas other modules contribute more to fluent dialogue. These findings offer a new perspective on LLM interpretability and open avenues for more targeted training strategies, potentially enabling more efficient and specialized LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)の印象的な性能にもかかわらず、それらに新しい能力(数学的推論など)を与えるプロセスは、主に経験的かつ不透明なままである。
重要なオープンな疑問は、推論能力がモデル全体、特定のモジュールに由来するのか、それとも単に過度に適合した人工物なのかである。
本研究では、よく訓練されたLLMの推論能力は、TransformerのMHSA(Multi-head self-attention)機構の出力プロジェクションモジュール(oproj)に起因すると仮定する。
この仮説を支持するために,LLMの内部動作の探索と解析を目的とした診断ツールであるStethoscope for Networks (SfN)を紹介した。
SfNを用いることで、オプロイが推論に中心的な役割を果たすことを示す状況証拠と経験的証拠の両方を提供する一方、他のモジュールはより流動的な対話に寄与する。
これらの知見は、LLMの解釈可能性と、よりターゲットを絞ったトレーニング戦略へのオープンな道についての新しい視点を与え、より効率的で専門的なLSMを可能にする可能性がある。
関連論文リスト
- A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models [40.67240575271987]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その内部メカニズムはほとんど不透明である。
機械的解釈性は、LLMの内部動作を理解する手段として、研究コミュニティから大きな注目を集めている。
スパースオートエンコーダ(SAE)は、LLM内の複雑な重畳された機能をより解釈可能なコンポーネントに分解する能力のために、将来性のある方法として登場した。
論文 参考訳(メタデータ) (2025-03-07T17:38:00Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。