論文の概要: AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model
- arxiv url: http://arxiv.org/abs/2310.02054v2
- Date: Sun, 4 Feb 2024 10:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:54:38.037541
- Title: AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model
- Title(参考訳): AlignDiff:行動カスタマイズ型拡散モデルによる異種人選好の調整
- Authors: Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing
Hu, Tangjie Lv, Changjie Fan and Zhipeng Hu
- Abstract要約: AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
- 参考スコア(独自算出の注目度): 69.12623428463573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning agent behaviors with diverse human preferences remains a challenging
problem in reinforcement learning (RL), owing to the inherent abstractness and
mutability of human preferences. To address these issues, we propose AlignDiff,
a novel framework that leverages RL from Human Feedback (RLHF) to quantify
human preferences, covering abstractness, and utilizes them to guide diffusion
planning for zero-shot behavior customizing, covering mutability. AlignDiff can
accurately match user-customized behaviors and efficiently switch from one to
another. To build the framework, we first establish the multi-perspective human
feedback datasets, which contain comparisons for the attributes of diverse
behaviors, and then train an attribute strength model to predict quantified
relative strengths. After relabeling behavioral datasets with relative
strengths, we proceed to train an attribute-conditioned diffusion model, which
serves as a planner with the attribute strength model as a director for
preference aligning at the inference phase. We evaluate AlignDiff on various
locomotion tasks and demonstrate its superior performance on preference
matching, switching, and covering compared to other baselines. Its capability
of completing unseen downstream tasks under human instructions also showcases
the promising potential for human-AI collaboration. More visualization videos
are released on https://aligndiff.github.io/.
- Abstract(参考訳): 多様な人間の嗜好を持つエージェントの行動を調整することは、人間の嗜好の固有の抽象性と変異性のため、強化学習(RL)において難しい問題である。
これらの問題に対処するために,人間フィードバック(rlhf)からrlを活用して人間の好みを定量化し,抽象性をカバーする新しいフレームワークであるaligneddiffを提案する。
AlignDiffはユーザーの行動と正確に一致し、効率的に切り替えることができる。
このフレームワークを構築するために、まず、多様な行動の属性の比較を含むマルチパースペクティブなヒューマンフィードバックデータセットを確立し、次に、定量化された相対強度を予測する属性強度モデルをトレーニングします。
行動データセットを相対的な強度で再現した後、我々は属性条件拡散モデルを訓練し、これは属性強度モデルのプランナーとして機能し、推論フェーズにおける優先順位調整のディレクタとして機能する。
我々は,様々なロコモーションタスクにおけるアライディフを評価し,他のベースラインと比較して,選好マッチング,スイッチング,カバーにおいてその優れた性能を示す。
人間の指示の下で見知らぬダウンストリームタスクを完了させる能力もまた、人間とAIのコラボレーションの可能性を示している。
さらなる可視化ビデオがhttps://aligndiff.github.io/で公開されている。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - AdaptSSR: Pre-training User Model with Augmentation-Adaptive
Self-Supervised Ranking [19.1857792382924]
本稿では,Augmentation-Supervised Ranking (AdaptSSR)を提案する。
我々は、暗黙的に拡張されたビュー、明示的な拡張されたビュー、および他のユーザからのビューの類似性の順序をキャプチャするために、ユーザモデルを訓練する複数のペアランキング損失を採用する。
6つの下流タスクを持つパブリックデータセットとインダストリアルデータセットの実験は、AdaptSSRの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-15T02:19:28Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Model-agnostic Fits for Understanding Information Seeking Patterns in
Humans [0.0]
不確実な意思決定タスクでは、人間はそのタスクに関連する情報を探し、統合し、行動する際、特徴的なバイアスを示す。
ここでは,これらのバイアスを総合的に測定・分類した,大規模に収集した先行設計実験のデータを再検討した。
これらのバイアスを集約的に再現するディープラーニングモデルを設計し、個々の行動の変化を捉えます。
論文 参考訳(メタデータ) (2020-12-09T04:34:58Z) - Learning Transferrable Parameters for Long-tailed Sequential User
Behavior Modeling [70.64257515361972]
テールユーザに注力することで、より多くのメリットをもたらし、長いテールの問題に対処できる、と私たちは主張しています。
具体的には、頭部から尾部への知識伝達を容易にするために、勾配アライメントを提案し、敵のトレーニングスキームを採用する。
論文 参考訳(メタデータ) (2020-10-22T03:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。