論文の概要: DSFT: Inspiring Diffusion Large Language Models to Comprehend Mathematical and Logical Patterns
- arxiv url: http://arxiv.org/abs/2509.18164v1
- Date: Wed, 17 Sep 2025 06:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.44066
- Title: DSFT: Inspiring Diffusion Large Language Models to Comprehend Mathematical and Logical Patterns
- Title(参考訳): DSFT: 数学的および論理的パターンを解くための拡散大言語モデル
- Authors: Ranfei Chen, Ming Chen,
- Abstract要約: 拡散大言語モデル(dLLM)は、自動回帰モデルに続く新しいアーキテクチャとして登場した。
数値的にセンシティブな数学的および秩序に敏感な論理的タスクの学習と理解において重要な課題を提示する。
本稿では,マスキング戦略と損失関数を調整することで,単純かつ効果的な拡散SFT戦略であるDSFTを提案する。
- 参考スコア(独自算出の注目度): 4.193537335690018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) have emerged as a new architecture following auto regressive models. Their denoising process offers a powerful generative advantage, but they present significant challenges in learning and understanding numerically sensitive mathematical and order-sensitive logical tasks. Current training methods, including pre-training, fine-tuning, and reinforcement learning, focus primarily on improving general knowledge retention and reasoning abilities, but lack a comprehensive understanding of mathematical and logical patterns. We propose DSFT, a simple yet effective Diffusion SFT strategy, by adjusting the masking strategy and loss function, guiding models to understand mathematical and logical patterns. This strategy can be flexibly combined with pre-training, reinforcement learning, and other training methods. Validated on models such as LLaDA and Dream series, we prove that DSFT on small-scale data can achieve improvements of 5-10% and approximately 2% on mathematical and logical problems, respectively. This inspiring masking approach offers insights for future learning of specific patterns, which can be easily and efficiently combined with other training methods and applied to various dLLMs. Our code is publicly available at https://anonymous.4open.science/r/DSFT-0FFB/
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、自動回帰モデルに続く新しいアーキテクチャとして登場した。
それらの認知過程は強力な生成上の優位性を提供するが、数値的に敏感な数学的および秩序に敏感な論理的タスクを学習し理解する上で重要な課題を提示する。
プレトレーニング、微調整、強化学習を含む現在の訓練方法は、一般的な知識の保持と推論能力の改善に重点を置いているが、数学的および論理的パターンの包括的な理解は欠如している。
本稿では、マスキング戦略と損失関数を調整し、数学的および論理的パターンを理解するためのモデルを導くことで、単純で効果的な拡散SFT戦略であるDSFTを提案する。
この戦略は、事前訓練、強化学習、その他の訓練方法と柔軟に組み合わせることができる。
LLaDAシリーズやDreamシリーズなどのモデルで検証した結果、DSFTの小型データでは、それぞれ5~10%、数学的問題では約2%の改善が可能であることが証明された。
このインスピレーションを受けたマスキングアプローチは、特定のパターンの将来の学習のための洞察を提供するもので、他のトレーニング手法と簡単かつ効率的に組み合わせて、様々なdLLMに適用することができる。
私たちのコードはhttps://anonymous.4open.science/r/DSFT-0FFB/で公開されています。
関連論文リスト
- Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。
より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-09T02:51:22Z) - SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning [49.29200323760457]
大きな言語モデル(LLM)は、推論スキルをより小さなモデルに転送することができる。
より小さなモデルは蒸留時に全ての戦略にLLM分布を適合させるほど表現力に乏しい。
この1つの戦略への依存は、より小さなモデルにおいて、望ましい戦略で困難な推論タスクを解決しようとするときに、課題となる。
論文 参考訳(メタデータ) (2024-10-24T09:29:18Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。