論文の概要: Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2505.10446v2
- Date: Wed, 21 May 2025 01:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.305351
- Title: Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models
- Title(参考訳): 拡散言語モデルによる側方思想の拡散連鎖の強化
- Authors: Zemin Huang, Zhiyang Chen, Zijun Wang, Tiancheng Li, Guo-Jun Qi,
- Abstract要約: 本稿では,拡散言語モデルの推論フレームワークであるDCoLT(Diffusion Chain of Lateral Thought)を紹介する。
DCoLTは、思考の中間段階において文法的正しさに厳格な規則を持たず、双方向で非線形な推論を可能にする。
DCoLT強化拡散言語モデル(DLM)は、SFTやRLで訓練された他のDLMよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 32.424686185300374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Diffusion Chain of Lateral Thought (DCoLT), a reasoning framework for diffusion language models. DCoLT treats each intermediate step in the reverse diffusion process as a latent "thinking" action and optimizes the entire reasoning trajectory to maximize the reward on the correctness of the final answer with outcome-based Reinforcement Learning (RL). Unlike traditional Chain-of-Thought (CoT) methods that follow a causal, linear thinking process, DCoLT allows bidirectional, non-linear reasoning with no strict rule on grammatical correctness amid its intermediate steps of thought. We implement DCoLT on two representative Diffusion Language Models (DLMs). First, we choose SEDD as a representative continuous-time discrete diffusion model, where its concrete score derives a probabilistic policy to maximize the RL reward over the entire sequence of intermediate diffusion steps. We further consider the discrete-time masked diffusion language model -- LLaDA, and find that the order to predict and unmask tokens plays an essential role to optimize its RL action resulting from the ranking-based Unmasking Policy Module (UPM) defined by the Plackett-Luce model. Experiments on both math and code generation tasks show that using only public data and 16 H800 GPUs, DCoLT-reinforced DLMs outperform other DLMs trained by SFT or RL or even both. Notably, DCoLT-reinforced LLaDA boosts its reasoning accuracy by +9.8%, +5.7%, +11.4%, +19.5% on GSM8K, MATH, MBPP, and HumanEval.
- Abstract(参考訳): 本稿では,拡散言語モデルの推論フレームワークであるDCoLT(Diffusion Chain of Lateral Thought)を紹介する。
DCoLTは、逆拡散過程における各中間ステップを、潜在的な「思考」行動として扱い、結果に基づく強化学習(RL)による最終回答の正しさに対する報酬を最大化するために、すべての推論軌道を最適化する。
因果的線形思考プロセスに従う伝統的なチェーン・オブ・ソート(CoT)法とは異なり、DCoLTは思考の中間段階において文法的正しさに厳格な規則を持たず、双方向で非線形な推論を可能にする。
DCoLTを2つの代表拡散言語モデル(DLM)に実装する。
まず, 連続時間離散拡散モデルとしてSEDDを選択し, その具体的なスコアは, 中間拡散ステップ全体に対してRL報酬を最大化するための確率的ポリシを導出する。
さらに、離散時間マスク付き拡散言語モデル LLaDA について考察し、Plackett-Luce モデルによって定義されたランクベースUnmasking Policy Module (UPM) によるRL アクションを最適化する上で、トークンの予測とアンマスクの順序が重要な役割を果たすことを発見した。
数学とコード生成タスクの両方の実験では、公開データと16のH800 GPUを使用して、DCoLT強化DLMが、SFTやRL、あるいは両方でトレーニングされた他のDLMよりも優れていることが示されている。
特に、DCoLT強化LLaDAは、GSM8K、MATH、MBPP、HumanEvalでの推論精度を+9.8%、+5.7%、+11.4%、+19.5%向上させる。
関連論文リスト
- d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付き微調整(SFT)とRLの組み合わせにより,事前学習したdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Large Language Diffusion Models [77.02553707673418]
自己回帰モデル(ARM)は、大規模言語モデル(LLM)の基盤として広く見なされている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインを上回っています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Theoretical Benefit and Limitation of Diffusion Language Model [47.579673047639126]
拡散言語モデルは、テキスト生成の有望なアプローチとして現れてきた。
本稿では,広く使われている拡散言語モデルMasked Diffusion Model(MDM)の厳密な理論的解析について述べる。
我々の分析は、MDMの利点と限界を理解するための最初の理論的基盤を確立している。
論文 参考訳(メタデータ) (2025-02-13T18:59:47Z) - Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning [43.74071631716718]
DICEに基づく手法は,行動分布から最適な政策分布への変換とみなすことができる。
本稿では拡散モデルを用いて直接この変換を行う新しい手法Diffusion-DICEを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:36:42Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Learning to Reach Goals via Diffusion [16.344212996721346]
本稿では,拡散モデルに基づく目標条件強化学習の新たな視点について述べる。
次に、スコア関数に類似したこれらの偏差を逆転させるために、目標条件付きポリシーを学ぶ。
Merlinと呼ばれるこのアプローチは、別の値関数を学ぶことなく、任意の初期状態から特定の目標に到達することができます。
論文 参考訳(メタデータ) (2023-10-04T00:47:02Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。