論文の概要: TRIMS: Trajectory-Ranked Instruction Masked Supervision for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.00666v1
- Date: Wed, 01 Apr 2026 09:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.917103
- Title: TRIMS: Trajectory-Ranked Instruction Masked Supervision for Diffusion Language Models
- Title(参考訳): TRIMS: 拡散言語モデルのための軌道依存型インストラクション・マズード・スーパービジョン
- Authors: Lingjie Chen, Ruizhong Qiu, Yuyu Fan, Yanjun Zhao, Hanghang Tong,
- Abstract要約: 拡散言語モデル(DLM)は、並列復号化による低レイテンシ生成への有望な道を提供する。
本稿では,単純な軌道誘導型微調整フレームワークであるTrajectory-Ranked Instruction Masked Supervision (TRIMS)を提案する。
- 参考スコア(独自算出の注目度): 46.490931189790956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) offer a promising path toward low-latency generation through parallel decoding, but their practical efficiency depends heavily on the decoding trajectory. In practice, this advantage often fails to fully materialize because standard training does not provide explicit supervision over token reveal order, creating a train-inference mismatch that leads to suboptimal decoding behavior. We propose Trajectory-Ranked Instruction Masked Supervision (TRIMS), a simple trajectory-guided supervised fine-tuning framework that injects trajectory supervision into standard Masked Diffusion Language Model (MDLM) training with minimal overhead. Instead of relying on costly DLM-based distillation, TRIMS uses lightweight signals from an autoregressive teacher to guide a trajectory-aware masking strategy, encouraging the model to learn more effective decoding orders. Experiments on LLaDA and Dream across math and coding benchmarks show that TRIMS significantly improves the accuracy-parallelism trade-off over both standard MDLM training and train-free acceleration baselines, while achieving competitive performance with prior distillation-based approaches at substantially lower training cost. Further analysis shows that TRIMS leads to better decoding trajectories, validating the effectiveness of trajectory-guided supervision for DLMs.
- Abstract(参考訳): 拡散言語モデル (DLMs) は並列デコードによる低レイテンシ生成への有望な経路を提供するが、その実用的効率はデコード軌道に大きく依存する。
実際には、標準的なトレーニングではトークンの公開順序に対する明確な監督が提供されないため、この利点は完全な実現に失敗することが多い。
本稿では,標準的なMasked Diffusion Language Model (MDLM) トレーニングに最小限のオーバーヘッドで軌道監督を注入する,単純な軌道誘導型微調整フレームワークである Trajectory-Ranked Instruction Masked Supervision (TRIMS) を提案する。
TRIMSは、高価なDLMベースの蒸留に頼る代わりに、自己回帰的な教師からの軽量信号を使用して、軌道対応マスキング戦略をガイドし、より効果的な復号命令を学習するようモデルに促している。
LLaDAとDreamを数学とコーディングのベンチマークで比較したところ、TRIMSは標準MDLMトレーニングと無列車加速ベースラインの双方に対して精度・並列性トレードオフを著しく改善する一方で、事前蒸留ベースのアプローチとの競争性能をかなり低いトレーニングコストで達成している。
さらなる分析により、TRIMSはより優れたデコードトラジェクトリをもたらし、DLMに対するトラジェクトリ誘導監視の有効性を検証した。
関連論文リスト
- T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization [45.026481622387244]
拡散大言語モデル(DLLM)は、複数のトークンを並列に復号することで高速なテキスト生成を可能にする可能性がある。
本稿では, モデル自体の生成軌道を蒸留することにより, 数ステップのデコードを改善するトラジェクトリ自己蒸留フレームワークを提案する。
当社のアプローチは、厳格なステップ予算の下で、強力な数ステップのベースラインと標準トレーニングを一貫して上回ります。
論文 参考訳(メタデータ) (2026-02-12T18:52:35Z) - TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference [1.0091292967761423]
TIDEは、オンラインドラフト適応を直接高性能なLLM推論システムに統合する、サービスエンジニアリングネイティブフレームワークである。
TIDEは、推論中に生成されたターゲットモデルをトレーニング信号として再利用し、ターゲットモデルを再ロードすることなく、ゼロオーバーヘッドのドラフト適応を可能にする。
さまざまな現実世界のワークロードに対して、TIDEは静的投機的復号化よりも最大1.15倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2026-02-05T00:06:12Z) - Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step [28.12392773921128]
マスケッド拡散言語モデルは、並列復号化、フレキシブルな生成順序、推論ステップの少ないポテンシャルなどの特性を提供する。
直感的なアプローチは、自己回帰(AR)言語モデルのために確立された技術を直接MDLMに転送することである。
本稿では,EOS Early Rejection (EOSER) と Ascending Step-Size (ASS) デコードスケジューラを提案する。
論文 参考訳(メタデータ) (2025-09-28T15:01:15Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。
既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文 参考訳(メタデータ) (2024-12-16T07:33:23Z) - GPTA: Generative Prompt Tuning Assistant for Synergistic Downstream Neural Network Enhancement with LLMs [11.572835837392867]
本研究はGPTA(Large Language Model assistance training framework)を導入し,プレフィックスプロンプトによる下流タスクモデルのトレーニングを強化する。
LLMのデータ露出を最小限にすることで、下流タスクモデルトレーニングにLLMを適用する際のセキュリティと法的課題に対処する。
論文 参考訳(メタデータ) (2024-03-29T23:04:04Z) - Semi-Supervised Learning of Optical Flow by Flow Supervisor [16.406213579356795]
そこで本研究では,事前学習したモデルに対して,地中真実の流れを伴わずに,目標データセットに適応するファインチューニング手法を提案する。
この設計は、従来の自己超越法よりも安定した収束と精度の向上を目的としている。
我々は,Sintel および KITTI ベンチマークにおける最先端光学フローモデルに対する有意義な改善を実現する。
論文 参考訳(メタデータ) (2022-07-21T06:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。