論文の概要: T$^\star$: Progressive Block Scaling for MDM Through Trajectory Aware RL
- arxiv url: http://arxiv.org/abs/2601.11214v1
- Date: Fri, 16 Jan 2026 11:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.475809
- Title: T$^\star$: Progressive Block Scaling for MDM Through Trajectory Aware RL
- Title(参考訳): T$^\star$: Trajectory Aware RLによるMDMのプログレッシブブロックスケーリング
- Authors: Hanchen Xia, Baoyou Chen, Yutang Ge, Guojiang Zhao, Siyu Zhu,
- Abstract要約: T$star$は、マスク拡散言語モデル(MDM)のためのプログレッシブブロックサイズスケールトレーニングカリキュラムである。
AR-Tracedの小さなブロックデコードMDMから始まり、T$star$transitionsはスムーズに大きなブロックに移行し、数学推論ベンチマークの性能低下を最小限に抑えながら高い並列性を実現する。
さらなる分析により、T$star$canは、同等のパフォーマンスを達成する代替の復号スケジュール$hatrm S$に収束することを示唆している。
- 参考スコア(独自算出の注目度): 7.075941732108866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present T$^\star$, a simple \textsc{TraceRL}-based training curriculum for progressive block-size scaling in masked diffusion language models (MDMs). Starting from an AR-initialized small-block MDM, T$^\star$~transitions smoothly to larger blocks, enabling higher-parallelism decoding with minimal performance degradation on math reasoning benchmarks. Moreover, further analysis suggests that T$^\star$~can converge to an alternative decoding schedule $\hat{\rm S}$ that achieves comparable performance.
- Abstract(参考訳): マスク付き拡散言語モデル(MDM)におけるプログレッシブブロックサイズスケーリングのための単純な \textsc{TraceRL} ベースのトレーニングカリキュラム T$^\star$ を提示する。
AR-initialized small-block MDMから始まり、T$^\star$~transitionsはスムーズに大きなブロックに変換される。
さらに、さらなる分析により、T$^\star$~can は、同等のパフォーマンスを達成する代替の復号スケジュール $\hat{\rm S}$ に収束することを示唆している。
関連論文リスト
- Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step [28.12392773921128]
マスケッド拡散言語モデルは、並列復号化、フレキシブルな生成順序、推論ステップの少ないポテンシャルなどの特性を提供する。
直感的なアプローチは、自己回帰(AR)言語モデルのために確立された技術を直接MDLMに転送することである。
本稿では,EOS Early Rejection (EOSER) と Ascending Step-Size (ASS) デコードスケジューラを提案する。
論文 参考訳(メタデータ) (2025-09-28T15:01:15Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - The Limits of Transfer Reinforcement Learning with Latent Low-rank Structure [9.631640936820126]
多くの強化学習アルゴリズムは、問題の状態と行動空間のA$であるSが大きすぎるため、実際に使用するには高すぎる。
我々は、ソースとターゲットのMDPが遷移カーネルを持つ場合、遅延低ランク表現を転送する問題を考察する。
提案アルゴリズムは,各ソースMDPの潜在表現を学習し,その線形構造を利用して,ターゲットMDPの後悔境界における$S,A$,あるいは$SA$への依存を除去する。
論文 参考訳(メタデータ) (2024-10-28T23:12:08Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。