論文の概要: Learnability-Informed Fine-Tuning of Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.22939v1
- Date: Thu, 21 May 2026 18:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.050561
- Title: Learnability-Informed Fine-Tuning of Diffusion Language Models
- Title(参考訳): 拡散言語モデルの学習性インフォームド微調整
- Authors: Shubham Parashar, Atharv Chagi, Jacob Helwig, Lakshmi Jotsna, Sushil Vemuri, James Caverlee, Dileep Kalathil, Shuiwang Ji,
- Abstract要約: 拡散言語モデル(DLM)のための効率的なSFTベースのポストトレーニングアルゴリズムであるLIFTを提案する。
LIFTは、ほとんどの入力がマスクされ、より多くのコンテキストが利用可能になったときに、簡単なトークンを学習し、異なる拡散時間ステップで利用可能な情報とトレーニングを整合させる。
その結果,LIFT は既存の SFT ベースラインを6つの推論ベンチマークで上回り,AIME'24 と AIME'25 の3倍に向上した。
- 参考スコア(独自算出の注目度): 50.420674346943294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to improve the reasoning capabilities of diffusion language models (DLMs). While SFT is a popular post-training recipe for autoregressive models, its use in DLMs faces challenges and can even hurt performance, though the underlying causes remain understudied. Our analysis reveals that vanilla SFT overlooks learnability, namely what and when tokens are learned. Specifically, rare tokens are difficult to learn when most of the input is masked, whereas it is straightforward and thus of little value to learn common tokens when most of the input is unmasked. Motivated by our analysis, we propose LIFT, an efficient SFT-based post-training algorithm for DLMs. LIFT learns easy tokens when most of the input is masked and hard tokens when more context is available, thus aligning the training with the information available at different diffusion time steps. Our results show that LIFT outperforms existing SFT baselines across six reasoning benchmarks, achieving up to a 3x relative gain on AIME'24 and AIME'25. Our code is publicly available at https://github.com/divelab/LIFT.
- Abstract(参考訳): 拡散言語モデル(DLM)の推論能力の向上を目指す。
SFTは自己回帰モデルのためのトレーニング後のレシピとして人気があるが、DLMでの使用は課題に直面し、パフォーマンスを損なうことさえある。
分析の結果,バニラSFTは学習可能性,すなわちトークンがいつ学習されるかを見落としていることがわかった。
特に、ほとんどの入力がマスクされている場合、希少なトークンを学習することは困難であるが、単純であり、ほとんどの入力がマスクされていない場合、共通のトークンを学習する価値はほとんどない。
そこで本研究では,DLM のための効率的な SFT ベースのポストトレーニングアルゴリズム LIFT を提案する。
LIFTは、ほとんどの入力がマスクされ、より多くのコンテキストが利用可能になったときに、簡単なトークンを学習し、異なる拡散時間ステップで利用可能な情報とトレーニングを整合させる。
その結果,LIFT は既存の SFT ベースラインを6つの推論ベンチマークで上回り,AIME'24 と AIME'25 の3倍に向上した。
私たちのコードはhttps://github.com/divelab/LIFT.comで公開されています。
関連論文リスト
- Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance [117.2119290254454]
実演誘導型RLVRアルゴリズムであるFESTを提案する。
SFTデータセットからランダムに選択された128のデモで、魅力的な結果が得られる。
この成功のためには、教師付き信号、オン・ポリケーション信号、および数ショットのSFTデータセット上の減衰重みの3つのコンポーネントが不可欠であることがわかった。
論文 参考訳(メタデータ) (2026-05-14T16:12:30Z) - StochasTok: Improving Fine-Grained Subword Understanding in LLMs [39.85256850592515]
サブワードレベルの理解は、多桁数字の理解、綴りミス、略語、韻律、言葉遊びなど、多くのタスクに不可欠である。
現在の大きな言語モデル(LLM)は、一見単純なサブワードレベルのタスクに苦しむことが多い。
我々はStochasTokを紹介した。StochasTokは、トレーニング中にトークンをランダムに分割し、LCMが"内部構造を見る"ことを可能にする、シンプルで効率的なトークン化スキームである。
論文 参考訳(メタデータ) (2025-06-02T13:51:11Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。
本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文 参考訳(メタデータ) (2024-06-17T09:17:40Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。