論文の概要: Regularized Conditional Diffusion Model for Multi-Task Preference Alignment
- arxiv url: http://arxiv.org/abs/2404.04920v2
- Date: Thu, 10 Oct 2024 10:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:06.912190
- Title: Regularized Conditional Diffusion Model for Multi-Task Preference Alignment
- Title(参考訳): マルチタスク選好アライメントのための正規化条件拡散モデル
- Authors: Xudong Yu, Chenjia Bai, Haoran He, Changhong Wang, Xuelong Li,
- Abstract要約: 連続的な意思決定は、人間の意図と一致し、様々なタスクにまたがる多角性を示すことが望まれる。
従来は条件付き拡散モデルを用いて軌道分布を直接モデル化し,条件生成プロセスとして定式化していた。
本研究では,シングルタスクとマルチタスクの両意思決定の統一条件として,マルチタスクの選好を採用する。
- 参考スコア(独自算出の注目度): 43.86042557447689
- License:
- Abstract: Sequential decision-making is desired to align with human intents and exhibit versatility across various tasks. Previous methods formulate it as a conditional generation process, utilizing return-conditioned diffusion models to directly model trajectory distributions. Nevertheless, the return-conditioned paradigm relies on pre-defined reward functions, facing challenges when applied in multi-task settings characterized by varying reward functions (versatility) and showing limited controllability concerning human preferences (alignment). In this work, we adopt multi-task preferences as a unified condition for both single- and multi-task decision-making, and propose preference representations aligned with preference labels. The learned representations are used to guide the conditional generation process of diffusion models, and we introduce an auxiliary objective to maximize the mutual information between representations and corresponding generated trajectories, improving alignment between trajectories and preferences. Extensive experiments in D4RL and Meta-World demonstrate that our method presents favorable performance in single- and multi-task scenarios, and exhibits superior alignment with preferences.
- Abstract(参考訳): 連続的な意思決定は、人間の意図と一致し、様々なタスクにまたがる多角性を示すことが望まれる。
従来は条件付き拡散モデルを用いて軌道分布を直接モデル化し,条件生成プロセスとして定式化していた。
それでも、リターン条件付きパラダイムは、事前に定義された報酬関数に依存しており、様々な報酬関数(可逆性)を特徴とするマルチタスク設定に適用し、人間の嗜好(アライメント)に関して限定的な制御性を示す場合の課題に直面している。
本研究では,シングルタスクとマルチタスクの両意思決定の統一条件としてマルチタスク選好を採用し,選好ラベルに整合した選好表現を提案する。
学習した表現は拡散モデルの条件生成過程を導出するために用いられ、表現と対応する軌道の相互情報を最大化するための補助的目的を導入し、軌道と嗜好の整合性を改善する。
D4RLとMeta-Worldの大規模な実験により、本手法はシングルタスクとマルチタスクのシナリオで好適な性能を示し、好みとの整合性が良好であることが示された。
関連論文リスト
- On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - Direct Preference Optimization-Enhanced Multi-Guided Diffusion Model for Traffic Scenario Generation [0.0]
拡散に基づくモデルは、現実的な交通シナリオを生成するために現実世界の運転データを使用することの有効性が認識されている。
これらのモデルは、特定のトラフィック嗜好を取り入れ、シナリオリアリズムを強化するためにガイド付きサンプリングを採用している。
本稿では,新しいトレーニング戦略を利用して,交通前兆に密着した多誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-14T05:29:43Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - One Fits All: General Mobility Trajectory Modeling via Masked Conditional Diffusion [11.373845190033297]
軌道データは、ネットワーク最適化から都市計画まで、多くのアプリケーションにおいて重要な役割を果たす。
既存のトラジェクトリデータの研究はタスク固有であり、それらの適用性は、生成、回復、予測など、トレーニングされた特定のタスクに限られる。
我々は条件拡散(GenMove)による一般的な軌道モデリングフレームワークを提案する。
我々のモデルは最先端のベースラインを著しく上回り、最高性能は生成タスクの13%以上である。
論文 参考訳(メタデータ) (2025-01-23T03:13:45Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Test-time Alignment of Diffusion Models without Reward Over-optimization [8.981605934618349]
拡散モデルは生成的タスクにおいて優れているが、特定の目的とそれらを整合させることは依然として困難である。
そこで本研究では,SMC(Sequential Monte Carlo)をベースとした学習自由なテスト時間手法を提案する。
単一逆最適化、多目的シナリオ、オンラインブラックボックス最適化において、その効果を実証する。
論文 参考訳(メタデータ) (2025-01-10T09:10:30Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。