論文の概要: ParetoSlider: Diffusion Models Post-Training for Continuous Reward Control
- arxiv url: http://arxiv.org/abs/2604.20816v1
- Date: Wed, 22 Apr 2026 17:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.265975
- Title: ParetoSlider: Diffusion Models Post-Training for Continuous Reward Control
- Title(参考訳): ParetoSlider:連続逆流制御のための拡散モデル
- Authors: Shelly Golan, Michael Finkelson, Ariel Bereslavsky, Yotam Nitzan, Or Patashnik,
- Abstract要約: 強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルと人間の嗜好を整合させる標準となっている。
初期スカラー化の一般的な実践は、複数の基準が問題となるとき、報酬を固定重み付けの和に分解する。
これはトレーニング時に1つのトレードオフポイントにモデルをコミットし、本質的に矛盾する目標に対する推論時間制御を提供する。
- 参考スコア(独自算出の注目度): 14.748861060405973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) post-training has become the standard for aligning generative models with human preferences, yet most methods rely on a single scalar reward. When multiple criteria matter, the prevailing practice of ``early scalarization'' collapses rewards into a fixed weighted sum. This commits the model to a single trade-off point at training time, providing no inference-time control over inherently conflicting goals -- such as prompt adherence versus source fidelity in image editing. We introduce ParetoSlider, a multi-objective RL (MORL) framework that trains a single diffusion model to approximate the entire Pareto front. By training the model with continuously varying preference weights as a conditioning signal, we enable users to navigate optimal trade-offs at inference time without retraining or maintaining multiple checkpoints. We evaluate ParetoSlider across three state-of-the-art flow-matching backbones: SD3.5, FluxKontext, and LTX-2. Our single preference-conditioned model matches or exceeds the performance of baselines trained separately for fixed reward trade-offs, while uniquely providing fine-grained control over competing generative goals.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルを人間の好みに合わせるための標準となっているが、ほとんどの方法は単一のスカラー報酬に依存している。
複数の基準が重要となるとき、「初期スカラー化」の慣行は、報酬を一定の重み付けの和に分解する。
これにより、トレーニング時に単一のトレードオフポイントにモデルをコミットし、画像編集におけるソースの忠実性に対するプロンプトの定着など、本質的に矛盾する目標に対する推論タイムコントロールを提供する。
本稿では,多目的RL(MORL)フレームワークであるParetoSliderを紹介する。
コンディショニング信号として連続的に異なる選好重みを持つモデルを訓練することにより、ユーザーは複数のチェックポイントを再トレーニングしたり維持したりすることなく、推論時に最適なトレードオフをナビゲートすることができる。
SD3.5, FluxKontext, LTX-2の3つの最先端フローマッチングバックボーンにおけるParetoSliderの評価を行った。
我々の単一嗜好条件モデルは、固定報酬トレードオフのために個別に訓練されたベースラインのパフォーマンスと一致し、同時に、競合する生成目標に対してきめ細かい制御を提供する。
関連論文リスト
- Controllable and explainable personality sliders for LLMs at inference time [1.3688381983244782]
連続多次元パーソナリティ制御のためのモジュラーフレームワークを提案する。
我々の重要な革新は、逐次適応ステアリング(SAS)である。これは、先行介入によってシフトした残流上のその後のプローブをトレーニングすることで、ステアリングベクトルを変換する手法である。
我々は,ビッグファイブの性格特性に関する枠組みを検証し,ゴール順守とコヒーレンスの両方において,ナイーブ・ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-10T08:16:59Z) - Improved Training Technique for Shortcut Models [12.527716901034694]
ショートカットモデルは、生成モデリングのための有望で非敵対的なパラダイムである。
ショートカットモデルは、1つのトレーニングされたネットワークから1ステップ、数ステップ、および複数ステップのサンプリングをサポートする。
本稿では,ショートカットモデルを後退させた5つのコア問題に対処する。
論文 参考訳(メタデータ) (2025-10-24T08:35:04Z) - Dual-Weighted Reinforcement Learning for Generative Preference Modeling [61.443461640955796]
本稿では,2重強化学習(DWRL)を嗜好モデリングの新しいフレームワークとして提案する。
本稿では、DWRLを生成的嗜好モデル(GPM)を訓練して嗜好モデルに適用し、まず思考を生成し、それから人間の選好スコアを予測する。
その結果、DWRLは、検証可能なタスク以上の推論強化された選好学習の一般的なフレームワークとして位置づけられた。
論文 参考訳(メタデータ) (2025-10-17T02:14:24Z) - Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity [35.95129874095729]
テキスト・トゥ・イメージ(T2I)モデルは単一エンタリティ・プロンプトに優れるが、多目的記述に苦慮する。
マルチオブジェクト忠実度に向けてサンプリングダイナミクスを操るための原理的最適化可能な目的を持った最初の理論的枠組みを導入する。
論文 参考訳(メタデータ) (2025-10-02T17:59:58Z) - Crowd-SFT: Crowdsourcing for LLM Alignment [4.648677931378919]
大規模言語モデル(LLM)は、監視された微調整(SFT)と人間フィードバックからの強化学習(RLHF)にますます依存している。
我々は,大規模なアノテータトレーニングを必要とせず,より広範なフィードバック収集を可能にする,クラウドソースのファインチューニングフレームワークを提案する。
本フレームワークは,Shapley値と相関するポイントベース報酬システムを通じてインセンティブフェアネスを促進し,反復モデル更新によるモデル収束を導出する。
論文 参考訳(メタデータ) (2025-06-04T15:26:38Z) - Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。