論文の概要: Regularized Conditional Diffusion Model for Multi-Task Preference Alignment
- arxiv url: http://arxiv.org/abs/2404.04920v1
- Date: Sun, 7 Apr 2024 11:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:51:34.468227
- Title: Regularized Conditional Diffusion Model for Multi-Task Preference Alignment
- Title(参考訳): マルチタスク選好アライメントのための正規化条件拡散モデル
- Authors: Xudong Yu, Chenjia Bai, Haoran He, Changhong Wang, Xuelong Li,
- Abstract要約: 連続的な意思決定は、人間の意図と一致し、様々なタスクにまたがる多角性を示すことが望まれる。
従来は条件付き拡散モデルを用いて軌道分布を直接モデル化し,条件生成プロセスとして定式化していた。
本研究では,シングルタスクとマルチタスクの両意思決定の統一条件として,マルチタスクの選好を採用する。
- 参考スコア(独自算出の注目度): 43.86042557447689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential decision-making is desired to align with human intents and exhibit versatility across various tasks. Previous methods formulate it as a conditional generation process, utilizing return-conditioned diffusion models to directly model trajectory distributions. Nevertheless, the return-conditioned paradigm relies on pre-defined reward functions, facing challenges when applied in multi-task settings characterized by varying reward functions (versatility) and showing limited controllability concerning human preferences (alignment). In this work, we adopt multi-task preferences as a unified condition for both single- and multi-task decision-making, and propose preference representations aligned with preference labels. The learned representations are used to guide the conditional generation process of diffusion models, and we introduce an auxiliary objective to maximize the mutual information between representations and corresponding generated trajectories, improving alignment between trajectories and preferences. Extensive experiments in D4RL and Meta-World demonstrate that our method presents favorable performance in single- and multi-task scenarios, and exhibits superior alignment with preferences.
- Abstract(参考訳): 連続的な意思決定は、人間の意図と一致し、様々なタスクにまたがる多角性を示すことが望まれる。
従来は条件付き拡散モデルを用いて軌道分布を直接モデル化し,条件生成プロセスとして定式化していた。
それでも、リターン条件付きパラダイムは、事前に定義された報酬関数に依存しており、様々な報酬関数(可逆性)を特徴とするマルチタスク設定に適用し、人間の嗜好(アライメント)に関して限定的な制御性を示す場合の課題に直面している。
本研究では,シングルタスクとマルチタスクの両意思決定の統一条件としてマルチタスク選好を採用し,選好ラベルに整合した選好表現を提案する。
学習した表現は拡散モデルの条件生成過程を導出するために用いられ、表現と対応する軌道の相互情報を最大化するための補助的目的を導入し、軌道と嗜好の整合性を改善する。
D4RLとMeta-Worldの大規模な実験により、本手法はシングルタスクとマルチタスクのシナリオで好適な性能を示し、好みとの整合性が良好であることが示された。
関連論文リスト
- InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with
Dynamic Preference Adjustment [48.773648757361975]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Optimal Condition Training for Target Source Separation [56.86138859538063]
単一チャネルターゲットソース分離のための最適条件学習法を提案する。
多様な意味概念によってもたらされる相補的な情報は、興味の源泉を乱して分離するのに大いに役立ちます。
論文 参考訳(メタデータ) (2022-11-11T00:04:55Z) - Towards Flexible Inference in Sequential Decision Problems via
Bidirectional Transformers [17.09745648221254]
FlexiBiTフレームワークを導入し、さまざまなシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
1つのFlexiBiTモデルは、特別なモデルと同等かそれ以上のパフォーマンスで、同時に多くのタスクを実行することができる。
論文 参考訳(メタデータ) (2022-04-28T07:50:08Z) - Multi-Order Networks for Action Unit Detection [7.971065005161565]
Multi-Order Network (MONET) は,タスク順序を最適化したマルチタスク学習手法である。
我々はMONETが顔行動単位検出における最先端性能を著しく拡張していることを示す。
論文 参考訳(メタデータ) (2022-02-01T14:58:21Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。