論文の概要: Guidance Is Not a Hyperparameter: Learning Dynamic Control in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.07701v1
- Date: Fri, 08 May 2026 13:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.060648
- Title: Guidance Is Not a Hyperparameter: Learning Dynamic Control in Diffusion Language Models
- Title(参考訳): 誘導はハイパーパラメータではない:拡散言語モデルにおける動的制御の学習
- Authors: Fan Zhou, Tim Van de Cruys,
- Abstract要約: 我々はCFG尺度の選択を逐次決定問題として再考し、強化学習を通して動的誘導軌道の学習を提案する。
離散拡散言語モデルを用いた3つの制御されたNLP生成タスクの実験により、適応的ガイダンスは固定スケール戦略よりも制御可能性と生成品質のバランスが良いことを示す。
- 参考スコア(独自算出の注目度): 8.501624260424387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifier-Free Guidance (CFG) is a widely used mechanism for controlling diffusion-based generative models, yet its guidance scale is typically treated as a fixed hyperparameter throughout generation. This static design yields a suboptimal controllability and quality tradeoff, as the optimal degree of guidance varies across tasks and across different stages of the diffusion process, especially in NLP domain. We recast CFG scale selection as a sequential decision-making problem and propose to learn dynamic guidance trajectories via reinforcement learning. Specifically, we model the guidance scale as a discrete control action selected at each generation step based on the evolving diffusion state, and optimize a policy using Proximal Policy Optimization (PPO) under task-level rewards. Experiments on three controlled NLP generation tasks using discrete diffusion language models demonstrate that adaptive guidance consistently achieves a better balance between controllability and generation quality than fixed-scale strategies. Further analysis of the learned policies reveals distinct and interpretable guidance trajectories across tasks, underscoring the importance of treating guidance as a dynamic control process rather than a static design choice.
- Abstract(参考訳): Classifier-Free Guidance (CFG) は拡散に基づく生成モデルを制御するために広く用いられているメカニズムであるが、その誘導スケールは一般的に、世代を通して固定されたハイパーパラメータとして扱われる。
この静的設計は、特にNLP領域において、タスクや拡散過程の異なる段階において最適なガイダンスの度合いが異なるため、最適制御性と品質のトレードオフをもたらす。
我々はCFG尺度の選択を逐次決定問題として再考し、強化学習を通して動的誘導軌道の学習を提案する。
具体的には、誘導尺度を、進化する拡散状態に基づいて各生成ステップで選択された個別制御アクションとしてモデル化し、タスクレベルの報酬の下でPPO(Pximal Policy Optimization)を使用してポリシーを最適化する。
離散拡散言語モデルを用いた3つの制御されたNLP生成タスクの実験により、適応的ガイダンスは固定スケール戦略よりも制御可能性と生成品質のバランスが良いことを示す。
学習方針のさらなる分析は、静的な設計選択ではなく、動的制御プロセスとしてガイダンスを扱うことの重要性を強調し、タスク間で異なる解釈可能なガイダンストラジェクトリを明らかにする。
関連論文リスト
- Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - Drive As You Like: Strategy-Level Motion Planning Based on A Multi-Head Diffusion Model [7.3078271605135114]
拡散型多頭部軌道プランナ(M拡散プランナ)を提案する。
初期の訓練段階では、すべての出力ヘッドは、高品質な軌道を生成するためにウェイトを共有する。
戦略選択のガイドとして,大規模言語モデル(LLM)を導入し,動的かつ命令対応の計画を可能にする。
論文 参考訳(メタデータ) (2025-08-23T08:33:11Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [5.819784482811376]
Prior Guidance(PG)は、行動閉ざされた拡散モデルに先立って標準ガウスを置き換えた新しいサンプリングフレームワークである。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。