論文の概要: Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization
- arxiv url: http://arxiv.org/abs/2603.21676v1
- Date: Mon, 23 Mar 2026 08:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.554768
- Title: Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization
- Title(参考訳): より深く、より長く考える: 合成一般化のための深さリカレント変換器
- Authors: Hung-Hsuan Chen,
- Abstract要約: 本稿では,パラメータ数から計算深度を分離するDepth-recurrent Transformerを提案する。
アーキテクチャには3つのメカニズムが組み込まれています(20以上のステップ)。
我々は,タスクの複雑さに対処して,思考ステップがスケールするにつれて,パフォーマンスが機会からほぼ完璧に遷移する,明確な計算フロンティアを観察する。
- 参考スコア(独自算出の注目度): 1.5736899098702974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Transformers have a fixed computational depth, fundamentally limiting their ability to generalize to tasks requiring variable-depth reasoning, such as multi-hop graph traversal or nested logic. We propose a depth-recurrent Transformer that decouples computational depth from parameter count by iteratively applying a shared-weight Transformer block in latent space -- enabling the model to trade recurrence steps for deeper reasoning at inference time. Our architecture incorporates three mechanisms to make deep recurrence (20+ steps) stable: (1) a silent thinking objective that supervises only the final output, forcing genuine multi-step reasoning rather than intermediate heuristic shortcuts; (2) LayerScale initialization to protect fragile reasoning states from untrained layer noise; and (3) an identity-biased recurrence that creates a gradient highway across many steps. We evaluate on three compositional reasoning domains with decreasing inductive biases: graph reachability (strict adjacency masking), nested boolean logic (relative positioning), and unstructured relational text (where sequence position provides no structural hints). Across all tasks, we observe a clear \emph{computational frontier} -- a boundary where performance transitions from chance to near-perfect as thinking steps scale with task complexity. Moreover, these tasks reveal qualitatively different generalization behaviors: precise but brittle (graph), approximate but robust (logic), and autonomous latent routing without structural hints (text). This progression illuminates how the interplay between a task-invariant recurrent reasoning core and task-specific perceptual interfaces shapes out-of-distribution (OOD) generalization, offering a mechanistic perspective on vertical chain-of-thought that complements the prevailing horizontal token-generation paradigm.
- Abstract(参考訳): 標準変換器は固定された計算深度を持ち、基本的にはマルチホップグラフトラバーサルやネスト論理のような可変深度推論を必要とするタスクに一般化する能力を制限している。
本稿では,パラメータ数から計算深度を分離し,遅延空間における共有重み付き変圧器ブロックを反復的に適用することにより,モデルが推論時により深い推論を行うために繰り返しステップを交換できる深度再帰変換器を提案する。
本アーキテクチャでは,(1)最終出力のみを監督するサイレントな思考目標,(2)未学習層雑音から脆弱な推論状態を保護するためのレイヤスケール初期化,(3)多数のステップにわたる勾配ハイウェイを創出するアイデンティティバイアス再帰の3つのメカニズムを組み込んでいる。
帰納的バイアスを減少させる3つの構成的推論領域について評価した。グラフ到達性(限定的隣接マスキング)、ネストされたブール論理(相対的位置決め)、非構造的関係テキスト(シーケンス位置が構造的ヒントを提示しない)である。
すべてのタスクにまたがって、明確な 'emph{computational Frontier} -- タスクの複雑さとともにスケールする思考ステップとして、パフォーマンスがチャンスからほぼ完璧に遷移する境界を観察する。
さらに、これらのタスクは、正確だが脆い(グラフ)、近似的だが頑健な(論理)、構造的ヒント(テキスト)のない自律潜伏ルーティング(英語版)といった質的に異なる一般化挙動を示す。
この進歩は、タスク不変リカレント推論コアとタスク固有パーセプチュアルインターフェースの間の相互作用が、分散(OOD)の一般化をいかに形成するかを照らし、一般的な水平トークン生成パラダイムを補完する垂直チェーン・オブ・シントに関する力学的な視点を提供する。
関連論文リスト
- Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - Multi-Agent Procedural Graph Extraction with Structural and Logical Refinement [66.51979814832332]
モデル式は、専用の構造的および論理的洗練を伴う多ラウンド推論プロセスとして手続きグラフ抽出を定式化する。
実験により、モデルが強いベースラインに対して構造的正当性と論理的整合性の両方において大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2026-01-27T04:00:48Z) - Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent [66.78052387054593]
この研究は、トランスフォーマーがシンボリックな多段階推論問題をチェーン・オブ・ソート・プロセスを通してどのように解くかを研究する。
モデルがゴールノードからルートへの経路を出力する後方推論タスクと,より複雑な前方推論タスクである。
訓練された一層変圧器は、木々の一般化を保証することにより、両方の課題を確実に解決できることを示す。
論文 参考訳(メタデータ) (2025-08-11T17:40:47Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - I-BERT: Inductive Generalization of Transformer to Arbitrary Context
Lengths [2.604653544948958]
自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。
位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
論文 参考訳(メタデータ) (2020-06-18T00:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。