Fugu-MT 論文翻訳(概要): Implicit Reasoning in Transformers is Reasoning through Shortcuts

論文の概要: Implicit Reasoning in Transformers is Reasoning through Shortcuts

arxiv url: http://arxiv.org/abs/2503.07604v2
Date: Tue, 18 Mar 2025 12:08:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 14:15:09.890689
Title: Implicit Reasoning in Transformers is Reasoning through Shortcuts
Title（参考訳）: 変圧器のインプシット推論はショートカットを通して推論する
Authors: Tianhe Lin, Jian Xie, Siyu Yuan, Deqing Yang,
Abstract要約: テストタイム計算は、言語モデルの複雑な多段階推論機能を強化するための新しいパラダイムとして登場しつつある。マルチステップタスクにおいて,言語モデルがどのように暗黙的推論を行うかを検討する。
参考スコア（独自算出の注目度）: 10.351525484558376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-time compute is emerging as a new paradigm for enhancing language models' complex multi-step reasoning capabilities, as demonstrated by the success of OpenAI's o1 and o3, as well as DeepSeek's R1. Compared to explicit reasoning in test-time compute, implicit reasoning is more inference-efficient, requiring fewer generated tokens. However, why does the advanced reasoning capability fail to emerge in the implicit reasoning style? In this work, we train GPT-2 from scratch on a curated multi-step mathematical reasoning dataset and conduct analytical experiments to investigate how language models perform implicit reasoning in multi-step tasks. Our findings reveal: 1) Language models can perform step-by-step reasoning and achieve high accuracy in both in-domain and out-of-domain tests via implicit reasoning. However, this capability only emerges when trained on fixed-pattern data. 2) Conversely, implicit reasoning abilities emerging from training on unfixed-pattern data tend to overfit a specific pattern and fail to generalize further. Notably, this limitation is also observed in state-of-the-art large language models. These findings suggest that language models acquire implicit reasoning through shortcut learning, enabling strong performance on tasks with similar patterns while lacking generalization.
Abstract（参考訳）: OpenAIのo1とo3、DeepSeekのR1の成功によって実証されたように、テストタイム計算は、言語モデルの複雑なマルチステップ推論機能を強化するための新しいパラダイムとして現れている。テスト時間計算の明示的推論と比較すると、暗黙的推論は推論効率が良く、生成されるトークンが少ない。しかし、なぜ高度な推論能力が暗黙の推論スタイルで現れないのか? 本研究では,多段階の数学的推論データセットを用いて,GPT-2をスクラッチからトレーニングし,多段階のタスクにおいて言語モデルがどのように暗黙的な推論を行うかを解析実験する。私たちの発見は明らかです。 1)言語モデルは、ステップバイステップの推論を実行し、暗黙の推論を通じてドメイン内テストとドメイン外テストの両方で高い精度を達成することができる。しかし、この機能は固定パターンデータでトレーニングされた時にのみ現れる。 2)非固定パターンデータのトレーニングから生じる暗黙的推論能力は,特定のパターンに過度に適合し,さらなる一般化に失敗する傾向にある。特に、この制限は最先端の大規模言語モデルでも見られる。これらの結果から,言語モデルはショートカット学習によって暗黙的推論を習得し,一般化を欠きつつ,類似したパターンを持つタスクの強い性能を実現することが示唆された。

関連論文リスト

MastermindEval: A Simple But Scalable Reasoning Benchmark [3.5519847710183674]
MastermindEvalは、ボードゲームMastermindにインスパイアされたシンプルでスケーラブルで解釈可能な推論ベンチマークである。本ベンチマークでは,(1) エージェント評価,(2) モデルが自律的にプレイするエージェント評価,(2) モデルが1つの有効なコードしか推論できないプリプレイされたゲーム状態を与える演目推論評価という2つの評価パラダイムをサポートする。
論文参考訳（メタデータ） (2025-03-07T19:24:59Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback [14.938401898546553]
本稿では,大規模言語モデルの推論ステップを表現するために,半構造化形式を提案する。具体的には、人間だけでなく、マシンフレンドリで、自然言語よりも容易に検証できる関係を使います。
論文参考訳（メタデータ） (2024-06-25T18:21:00Z)
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文参考訳（メタデータ） (2024-04-14T07:19:27Z)
Transformers in the Service of Description Logic-based Contexts [2.8210912543324658]
私たちは記述論理言語$mathcalALCQ$を使って自然言語データセットDELTA$_D$を構築します。教師付き細調整DeBERTaモデルと2つの大言語モデル(GPT-3.5, GPT-4)の推論能力について検討した。以上の結果から,DeBERTaをベースとしたモデルでは推論タスクをマスターすることができ,少数のサンプルが提供されてもGPTの性能は大幅に向上することが示された。
論文参考訳（メタデータ） (2023-11-15T13:23:24Z)
UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文参考訳（メタデータ） (2023-11-14T19:00:55Z)
Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文参考訳（メタデータ） (2023-11-02T17:59:49Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。 APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文参考訳（メタデータ） (2022-12-19T07:40:02Z)
ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。 ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文参考訳（メタデータ） (2022-12-16T05:15:41Z)
MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文参考訳（メタデータ） (2022-10-22T16:01:13Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)
Does entity abstraction help generative Transformers reason? [8.159805544989359]
本稿では,事前学習したトランスフォーマーにエンティティ型抽象化を組み込むことの有用性について検討する。論理的推論の異なる4つのNLPタスクに対して,これらの手法を検証した。
論文参考訳（メタデータ） (2022-01-05T19:00:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。