論文の概要: AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model
- arxiv url: http://arxiv.org/abs/2310.02054v2
- Date: Sun, 4 Feb 2024 10:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:54:38.037541
- Title: AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model
- Title(参考訳): AlignDiff:行動カスタマイズ型拡散モデルによる異種人選好の調整
- Authors: Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing
Hu, Tangjie Lv, Changjie Fan and Zhipeng Hu
- Abstract要約: AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
- 参考スコア(独自算出の注目度): 69.12623428463573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning agent behaviors with diverse human preferences remains a challenging
problem in reinforcement learning (RL), owing to the inherent abstractness and
mutability of human preferences. To address these issues, we propose AlignDiff,
a novel framework that leverages RL from Human Feedback (RLHF) to quantify
human preferences, covering abstractness, and utilizes them to guide diffusion
planning for zero-shot behavior customizing, covering mutability. AlignDiff can
accurately match user-customized behaviors and efficiently switch from one to
another. To build the framework, we first establish the multi-perspective human
feedback datasets, which contain comparisons for the attributes of diverse
behaviors, and then train an attribute strength model to predict quantified
relative strengths. After relabeling behavioral datasets with relative
strengths, we proceed to train an attribute-conditioned diffusion model, which
serves as a planner with the attribute strength model as a director for
preference aligning at the inference phase. We evaluate AlignDiff on various
locomotion tasks and demonstrate its superior performance on preference
matching, switching, and covering compared to other baselines. Its capability
of completing unseen downstream tasks under human instructions also showcases
the promising potential for human-AI collaboration. More visualization videos
are released on https://aligndiff.github.io/.
- Abstract(参考訳): 多様な人間の嗜好を持つエージェントの行動を調整することは、人間の嗜好の固有の抽象性と変異性のため、強化学習(RL)において難しい問題である。
これらの問題に対処するために,人間フィードバック(rlhf)からrlを活用して人間の好みを定量化し,抽象性をカバーする新しいフレームワークであるaligneddiffを提案する。
AlignDiffはユーザーの行動と正確に一致し、効率的に切り替えることができる。
このフレームワークを構築するために、まず、多様な行動の属性の比較を含むマルチパースペクティブなヒューマンフィードバックデータセットを確立し、次に、定量化された相対強度を予測する属性強度モデルをトレーニングします。
行動データセットを相対的な強度で再現した後、我々は属性条件拡散モデルを訓練し、これは属性強度モデルのプランナーとして機能し、推論フェーズにおける優先順位調整のディレクタとして機能する。
我々は,様々なロコモーションタスクにおけるアライディフを評価し,他のベースラインと比較して,選好マッチング,スイッチング,カバーにおいてその優れた性能を示す。
人間の指示の下で見知らぬダウンストリームタスクを完了させる能力もまた、人間とAIのコラボレーションの可能性を示している。
さらなる可視化ビデオがhttps://aligndiff.github.io/で公開されている。
関連論文リスト
- Personalized Behavior-Aware Transformer for Multi-Behavior Sequential
Recommendation [25.400756652696895]
マルチビヘイビアシーケンスレコメンデーション(MBSR)問題に対するパーソナライズされた行動認識変換フレームワーク(PBAT)を提案する。
PBATは表現層にパーソナライズされた振舞いパターン生成器を開発し,逐次学習のための動的・識別的な振舞いパターンを抽出する。
3つのベンチマークデータセットで実験を行い、その結果、フレームワークの有効性と解釈性を示した。
論文 参考訳(メタデータ) (2024-02-22T12:03:21Z) - ControlLM: Crafting Diverse Personalities for Language Models [32.411304295746746]
そこで本研究では,モデルの潜在空間における行動プロンプトの対比から導かれる,差動アクティベーションパターンを利用した制御LMを提案する。
まず、トレーニングなしで多様なペルソナ行動を引き出す制御LMの能力を実証する一方、精度制御により、人格特性が平均的な人格値と密に一致できることを実証する。
我々は,良心や親しみなどの有益な属性を選択的に増幅することで,推論と質問応答を改善した。
論文 参考訳(メタデータ) (2024-02-15T17:58:29Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - UniAR: Unifying Human Attention and Response Prediction on Visual
Content [12.281060227170792]
UniAR - 異なるタイプの視覚コンテンツにわたって暗黙的および明示的な人間の振る舞いを予測する統一モデル。
自然画像、Webページ、グラフィックデザインにまたがるさまざまなパブリックデータセットに基づいて、UniARをトレーニングします。
論文 参考訳(メタデータ) (2023-12-15T19:57:07Z) - AdaptSSR: Pre-training User Model with Augmentation-Adaptive
Self-Supervised Ranking [19.1857792382924]
本稿では,Augmentation-Supervised Ranking (AdaptSSR)を提案する。
我々は、暗黙的に拡張されたビュー、明示的な拡張されたビュー、および他のユーザからのビューの類似性の順序をキャプチャするために、ユーザモデルを訓練する複数のペアランキング損失を採用する。
6つの下流タスクを持つパブリックデータセットとインダストリアルデータセットの実験は、AdaptSSRの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-15T02:19:28Z) - Learning signatures of decision making from many individuals playing the
same game [54.33783158658077]
我々は、個人の「行動スタイル」を符号化する表現を学習する予測フレームワークを設計する。
我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-02-21T21:41:53Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - Model-agnostic Fits for Understanding Information Seeking Patterns in
Humans [0.0]
不確実な意思決定タスクでは、人間はそのタスクに関連する情報を探し、統合し、行動する際、特徴的なバイアスを示す。
ここでは,これらのバイアスを総合的に測定・分類した,大規模に収集した先行設計実験のデータを再検討した。
これらのバイアスを集約的に再現するディープラーニングモデルを設計し、個々の行動の変化を捉えます。
論文 参考訳(メタデータ) (2020-12-09T04:34:58Z) - Learning Transferrable Parameters for Long-tailed Sequential User
Behavior Modeling [70.64257515361972]
テールユーザに注力することで、より多くのメリットをもたらし、長いテールの問題に対処できる、と私たちは主張しています。
具体的には、頭部から尾部への知識伝達を容易にするために、勾配アライメントを提案し、敵のトレーニングスキームを採用する。
論文 参考訳(メタデータ) (2020-10-22T03:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。