論文の概要: Implicit Reasoning in Transformers is Reasoning through Shortcuts
- arxiv url: http://arxiv.org/abs/2503.07604v2
- Date: Tue, 18 Mar 2025 12:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:12:33.840557
- Title: Implicit Reasoning in Transformers is Reasoning through Shortcuts
- Title(参考訳): 変圧器のインプシット推論はショートカットを通して推論する
- Authors: Tianhe Lin, Jian Xie, Siyu Yuan, Deqing Yang,
- Abstract要約: テストタイム計算は、言語モデルの複雑な多段階推論機能を強化するための新しいパラダイムとして登場しつつある。
マルチステップタスクにおいて,言語モデルがどのように暗黙的推論を行うかを検討する。
- 参考スコア(独自算出の注目度): 10.351525484558376
- License:
- Abstract: Test-time compute is emerging as a new paradigm for enhancing language models' complex multi-step reasoning capabilities, as demonstrated by the success of OpenAI's o1 and o3, as well as DeepSeek's R1. Compared to explicit reasoning in test-time compute, implicit reasoning is more inference-efficient, requiring fewer generated tokens. However, why does the advanced reasoning capability fail to emerge in the implicit reasoning style? In this work, we train GPT-2 from scratch on a curated multi-step mathematical reasoning dataset and conduct analytical experiments to investigate how language models perform implicit reasoning in multi-step tasks. Our findings reveal: 1) Language models can perform step-by-step reasoning and achieve high accuracy in both in-domain and out-of-domain tests via implicit reasoning. However, this capability only emerges when trained on fixed-pattern data. 2) Conversely, implicit reasoning abilities emerging from training on unfixed-pattern data tend to overfit a specific pattern and fail to generalize further. Notably, this limitation is also observed in state-of-the-art large language models. These findings suggest that language models acquire implicit reasoning through shortcut learning, enabling strong performance on tasks with similar patterns while lacking generalization.
- Abstract(参考訳): OpenAIのo1とo3、DeepSeekのR1の成功によって実証されたように、テストタイム計算は、言語モデルの複雑なマルチステップ推論機能を強化するための新しいパラダイムとして現れている。
テスト時間計算の明示的推論と比較すると、暗黙的推論は推論効率が良く、生成されるトークンが少ない。
しかし、なぜ高度な推論能力が暗黙の推論スタイルで現れないのか?
本研究では,多段階の数学的推論データセットを用いて,GPT-2をスクラッチからトレーニングし,多段階のタスクにおいて言語モデルがどのように暗黙的な推論を行うかを解析実験する。
私たちの発見は明らかです。
1)言語モデルは、ステップバイステップの推論を実行し、暗黙の推論を通じてドメイン内テストとドメイン外テストの両方で高い精度を達成することができる。
しかし、この機能は固定パターンデータでトレーニングされた時にのみ現れる。
2)非固定パターンデータのトレーニングから生じる暗黙的推論能力は,特定のパターンに過度に適合し,さらなる一般化に失敗する傾向にある。
特に、この制限は最先端の大規模言語モデルでも見られる。
これらの結果から,言語モデルはショートカット学習によって暗黙的推論を習得し,一般化を欠きつつ,類似したパターンを持つタスクの強い性能を実現することが示唆された。
関連論文リスト
- Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback [14.938401898546553]
本稿では,大規模言語モデルの推論ステップを表現するために,半構造化形式を提案する。
具体的には、人間だけでなく、マシンフレンドリで、自然言語よりも容易に検証できる関係を使います。
論文 参考訳(メタデータ) (2024-06-25T18:21:00Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z) - Certified Deductive Reasoning with Language Models [37.51289654360009]
Emphguidesと呼ばれる言語モデルのためのツールのクラスを導入し、ステートとインクリメンタルな制約を使って生成をガイドします。
モデルによってガイドを呼び出すことで、自身の生成を有効なステートメントのセットに制約することができる。
論理的推論のための一般的なシステムが,textscLogicGuideと呼ばれるガイドとしてどのように使用できるかを示す。
論文 参考訳(メタデータ) (2023-06-06T21:49:00Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Does entity abstraction help generative Transformers reason? [8.159805544989359]
本稿では,事前学習したトランスフォーマーにエンティティ型抽象化を組み込むことの有用性について検討する。
論理的推論の異なる4つのNLPタスクに対して,これらの手法を検証した。
論文 参考訳(メタデータ) (2022-01-05T19:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。