論文の概要: TABES: Trajectory-Aware Backward-on-Entropy Steering for Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.00250v1
- Date: Fri, 30 Jan 2026 19:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.077366
- Title: TABES: Trajectory-Aware Backward-on-Entropy Steering for Masked Diffusion Models
- Title(参考訳): TABES:仮設拡散モデルのための軌道対応逆向きエントロピーステアリング
- Authors: Shreshth Saini, Avinab Saha, Balu Adsumilli, Neil Birkbeck, Yilin Wang, Alan C. Bovik,
- Abstract要約: Backward-on-Entropy (BoE) Steeringは勾配誘導型推論フレームワークで、無限水平コンテキストを1つの後方パスで近似する。
スケーラビリティを確保するために,マスク対象の構造を利用した疎結合プリミティブであるttexttActiveQueryAttentionを導入し,後方通過の複雑さを低減する。
- 参考スコア(独自算出の注目度): 35.327100592206115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Models (MDMs) have emerged as a promising non-autoregressive paradigm for generative tasks, offering parallel decoding and bidirectional context utilization. However, current sampling methods rely on simple confidence-based heuristics that ignore the long-term impact of local decisions, leading to trajectory lock-in where early hallucinations cascade into global incoherence. While search-based methods mitigate this, they incur prohibitive computational costs ($O(K)$ forward passes per step). In this work, we propose Backward-on-Entropy (BoE) Steering, a gradient-guided inference framework that approximates infinite-horizon lookahead via a single backward pass. We formally derive the Token Influence Score (TIS) from a first-order expansion of the trajectory cost functional, proving that the gradient of future entropy with respect to input embeddings serves as an optimal control signal for minimizing uncertainty. To ensure scalability, we introduce \texttt{ActiveQueryAttention}, a sparse adjoint primitive that exploits the structure of the masking objective to reduce backward pass complexity. BoE achieves a superior Pareto frontier for inference-time scaling compared to existing unmasking methods, demonstrating that gradient-guided steering offers a mathematically principled and efficient path to robust non-autoregressive generation. We will release the code.
- Abstract(参考訳): Masked Diffusion Models (MDM) は、並列デコーディングと双方向コンテキスト利用を提供する、生成タスクのための有望な非自己回帰パラダイムとして登場した。
しかし、現在のサンプリング手法は、局所的な決定の長期的な影響を無視した単純な信頼に基づくヒューリスティックに依存しており、初期の幻覚が世界的な不整合に陥る軌道ロックインに繋がる。
検索ベースの手法がこれを緩和する一方で、禁止的な計算コスト(ステップ当たりのO(K)$フォワードパス)を発生させる。
本研究では,1つの後方パスを通じて無限水平ルックアヘッドを近似する勾配誘導型推論フレームワークであるバックワード・オン・エントロピー(BoE)ステアリングを提案する。
我々は、入力埋め込みに対する将来のエントロピーの勾配が不確実性を最小化するための最適な制御信号となることを証明し、軌道コスト関数の1次展開からToken Influence Score(TIS)を公式に導出した。
スケーラビリティを確保するために,マスク対象の構造を利用した疎結合プリミティブである \texttt{ActiveQueryAttention} を導入し,後方通過の複雑さを低減した。
BoEは、既存の非機械的手法と比較して、推論時間スケーリングにおいて優れたParetoフロンティアを達成し、勾配誘導ステアリングが堅牢な非自己回帰生成への数学的に原理的かつ効率的な経路を提供することを示した。
コードを公開します。
関連論文リスト
- Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits and MDPs [56.246783503873225]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
本稿では,ウィンドウ/リスタートベースアルゴリズムと同様に,より単純な重みに基づくアルゴリズムを提案する。
我々のフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2026-01-03T04:50:21Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - On Geometric Structures for Policy Parameterization in Continuous Control [7.056222499095849]
本稿では,単位多様体上での演算による構造的利点を保った,計算効率の良いアクション生成パラダイムを提案する。
本手法は,動作を決定論的方向ベクトルと学習可能な濃度に分解し,目標方向と一様雑音との効率性を実現する。
実証的に、我々の手法は標準的な連続制御ベンチマークで最先端の手法と一致するか超えている。
論文 参考訳(メタデータ) (2025-11-11T13:32:38Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - Adapting to Stochastic and Adversarial Losses in Episodic MDPs with Aggregate Bandit Feedback [61.49239204705301]
本研究では,有限水平マルコフ決定過程(MDP)におけるオンライン学習について,包括的包括的包括的フィードバックモデルを用いて検討する。
本研究は, オンライン最短経路問題の近年の進展に触発された, 占領対策, 自己拘束技術, 新たな損失推定器の組合せに依拠する。
論文 参考訳(メタデータ) (2025-10-20T02:28:08Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Improving Black-Box Generative Attacks via Generator Semantic Consistency [51.470649503929344]
ジェネレーティブアタックは テスト時に 1つのフォワードパスで 敵の例を生成する
初期ジェネレータの中間機能をEMA教師に整列させることで意味的整合性を実現する。
我々のアプローチは、ブラックボックス転送の一貫性を保ちながら、既存のジェネレーティブアタックにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-06-23T02:35:09Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。