論文の概要: EntRGi: Entropy Aware Reward Guidance for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.05000v1
- Date: Wed, 04 Feb 2026 19:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.592105
- Title: EntRGi: Entropy Aware Reward Guidance for Diffusion Language Models
- Title(参考訳): EntRGi: 拡散言語モデルに対するエントロピー認識逆ガイダンス
- Authors: Atula Tejaswi, Litu Rout, Constantine Caramanis, Sanjay Shakkottai, Sujay Sanghavi,
- Abstract要約: 本研究では,離散拡散言語モデルに対する報酬指導について検討する。
既存のアプローチでは、離散トークンを連続的な緩和に置き換えるか、ストレートスルー推定器のようなテクニックを採用する。
本稿では,報酬モデルから勾配を動的に調節するエントロピー対応リワードガイダンスについて紹介する。
- 参考スコア(独自算出の注目度): 42.41157160976886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward guidance has been applied to great success in the test-time adaptation of continuous diffusion models; it updates each denoising step using the gradients from a downstream reward model. We study reward guidance for discrete diffusion language models, where one cannot differentiate through the natural outputs of the model because they are discrete tokens. Existing approaches either replace these discrete tokens with continuous relaxations, or employ techniques like the straight-through estimator. In this work, we show the downsides of both these methods. The former degrades gradient feedback because the reward model has never been trained with continuous inputs. The latter involves incorrect optimization because the gradient evaluated at discrete tokens is used to update continuous logits. Our key innovation is to go beyond this tradeoff by introducing a novel mechanism called EntRGi: Entropy aware Reward Guidance that dynamically regulates the gradients from the reward model. By modulating the continuous relaxation using the model's confidence, our approach substantially improves reward guidance while providing reliable inputs to the reward model. We empirically validate our approach on a 7B-parameter diffusion language model across 3 diverse reward models and 3 multi-skill benchmarks, showing consistent improvements over state-of-the-art methods.
- Abstract(参考訳): 逆ガイダンスは連続拡散モデルの試験時間適応における大きな成功に応用され、下流の報酬モデルからの勾配を用いて各復調ステップを更新する。
本稿では,離散拡散言語モデルに対する報酬指導について検討する。
既存のアプローチでは、これらの離散トークンを連続的な緩和に置き換えるか、ストレートスルー推定器のようなテクニックを採用する。
本稿では,これらの手法の欠点について述べる。
前者は、報酬モデルが連続的な入力でトレーニングされたことがないため、勾配フィードバックを低下させる。
後者は、離散トークンで評価された勾配が連続ロジットの更新に使用されるため、誤った最適化が伴う。
私たちの重要なイノベーションは、EntRGi: Entropy aware Reward Guidanceという、報酬モデルから勾配を動的に制御する新しいメカニズムを導入することで、このトレードオフを超えていくことです。
本手法は,モデルの信頼度を用いて連続緩和を調節することにより,報酬モデルに対する信頼性の高い入力を提供しながら,報酬誘導を大幅に改善する。
3つの多様な報酬モデルと3つのマルチスキルベンチマークにまたがる7Bパラメータ拡散言語モデルに対する我々のアプローチを実証的に検証し、最先端の手法よりも一貫した改善を示す。
関連論文リスト
- Distributional value gradients for stochastic environments [37.5115685757579]
回帰正則値学習法は、遷移力学と報酬の学習モデルを活用してサンプル効率を向上させる。
本研究では、連続状態-作用空間上の分散強化学習を拡張することで、これらの制約に対処する。
SVG(Value Gradients)にインスパイアされた本手法は,条件付きVari Autoencoder(cVAE)を用いて実装された報酬および遷移分布の一段階の世界モデルを利用する。
論文 参考訳(メタデータ) (2026-01-27T21:31:07Z) - The Diffusion Duality [24.39272541108744]
一様状態拡散過程は、基礎となるガウス拡散から自然に現れる。
カリキュラム学習で訓練されたモデルは、7つのベンチマークのうち3つでゼロショットパープレキシティで自己回帰モデルを上回る。
本稿では, 連続から離散的な状態への連続蒸留を適応させる離散一致蒸留について述べる。
論文 参考訳(メタデータ) (2025-06-12T16:55:35Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。