論文の概要: Discrete Diffusion Models Exploit Asymmetry to Solve Lookahead Planning Tasks
- arxiv url: http://arxiv.org/abs/2602.19980v1
- Date: Mon, 23 Feb 2026 15:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.887277
- Title: Discrete Diffusion Models Exploit Asymmetry to Solve Lookahead Planning Tasks
- Title(参考訳): 離散拡散モデルによるLookahead計画課題の解法非対称性の爆発
- Authors: Itamar Trainin, Shauli Ravfogel, Omri Abend, Amir Feder,
- Abstract要約: 我々は,非自己回帰(NAR)モデルが,将来的なトークンを用いて後方から復号化することで,計画課題の解決を学習していることを示す。
我々は、ARモデルとNARモデルの両方が、ルックアヘッドタスクにおいて完全な精度を達成可能であることを報告した。
- 参考スコア(独自算出の注目度): 31.338692248735892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Autoregressive (AR) Transformer-based Generative Language Models are frequently employed for lookahead tasks, recent research suggests a potential discrepancy in their ability to perform planning tasks that require multi-step lookahead. In this work, we investigate the distinct emergent mechanisms that arise when training AR versus Non-Autoregressive (NAR) models, such as Discrete Diffusion Models (dLLMs), on lookahead tasks. By requiring the models to plan ahead to reach the correct conclusion, we analyze how these two paradigms fundamentally differ in their approach to the problem. We identify a critical asymmetry in planning problems: while forward generation requires complex lookahead at branching junctions, reverse generation is often deterministic. This asymmetry creates an opportunity for NAR models. Through mechanistic analysis of training and inference dynamics, we demonstrate that NAR models learn to solve planning tasks by utilizing future tokens to decode backwards, avoiding the need to learn complex traversal mechanisms entirely. Consequently, we report that both AR and NAR models are able to achieve perfect accuracy on the lookahead task. However, NAR models require exponentially fewer training examples and shallower architectures compared to AR models, which often fail to converge without specific curriculum adjustments.
- Abstract(参考訳): 自動回帰(AR)トランスフォーマーに基づく生成言語モデルはしばしばルックアヘッドタスクに使用されるが、最近の研究では、マルチステップルックアヘッドを必要とする計画タスクの実行能力において、潜在的な相違が示唆されている。
本研究では,離散拡散モデル (dLLMs) のようなARと非自己回帰モデル(NAR)の学習時に生じる創発メカニズムを,ルックアヘッドタスクで検討する。
正しい結論に達するためにモデルに事前計画を要求することで、これらの2つのパラダイムが問題に対するアプローチにおいてどのように根本的に異なるかを分析する。
前方生成は分岐接合において複雑なルックアヘッドを必要とするが、逆生成はしばしば決定論的である。
この非対称性は、NARモデルの機会を生み出す。
トレーニングと推論の力学解析を通じて, NARモデルは, 将来的なトークンを逆向きにデコードし, 複雑なトラバーサル機構を完全に学習する必要がなくなることによって, 計画課題の解法を学習できることを実証する。
その結果、ARモデルとNARモデルの両方が、ルックアヘッドタスクにおいて完全な精度を達成可能であることを報告した。
しかし、NARモデルは、特定のカリキュラム調整なしでは収束しないことが多いARモデルと比較して、指数関数的に少ないトレーニング例と浅いアーキテクチャを必要とする。
関連論文リスト
- Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。
機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。
位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - A Fixed-Point Approach for Causal Generative Modeling [20.88890689294816]
本稿では,構造因果モデル(Structure Causal Models, SCM)を因果順序付き変数の固定点問題として記述する新しい形式論を提案する。
トポロジカル順序付け(TO)を考えると,その特異な回復のために最も弱い既知の条件を確立する。
論文 参考訳(メタデータ) (2024-04-10T12:29:05Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。