Fugu-MT 論文翻訳(概要): AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model

論文の概要: AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model

arxiv url: http://arxiv.org/abs/2310.02054v2
Date: Sun, 4 Feb 2024 10:48:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 04:54:38.037541
Title: AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model
Title（参考訳）: AlignDiff:行動カスタマイズ型拡散モデルによる異種人選好の調整
Authors: Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Tangjie Lv, Changjie Fan and Zhipeng Hu
Abstract要約: AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
参考スコア（独自算出の注目度）: 69.12623428463573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligning agent behaviors with diverse human preferences remains a challenging problem in reinforcement learning (RL), owing to the inherent abstractness and mutability of human preferences. To address these issues, we propose AlignDiff, a novel framework that leverages RL from Human Feedback (RLHF) to quantify human preferences, covering abstractness, and utilizes them to guide diffusion planning for zero-shot behavior customizing, covering mutability. AlignDiff can accurately match user-customized behaviors and efficiently switch from one to another. To build the framework, we first establish the multi-perspective human feedback datasets, which contain comparisons for the attributes of diverse behaviors, and then train an attribute strength model to predict quantified relative strengths. After relabeling behavioral datasets with relative strengths, we proceed to train an attribute-conditioned diffusion model, which serves as a planner with the attribute strength model as a director for preference aligning at the inference phase. We evaluate AlignDiff on various locomotion tasks and demonstrate its superior performance on preference matching, switching, and covering compared to other baselines. Its capability of completing unseen downstream tasks under human instructions also showcases the promising potential for human-AI collaboration. More visualization videos are released on https://aligndiff.github.io/.
Abstract（参考訳）: 多様な人間の嗜好を持つエージェントの行動を調整することは、人間の嗜好の固有の抽象性と変異性のため、強化学習(RL)において難しい問題である。これらの問題に対処するために,人間フィードバック(rlhf)からrlを活用して人間の好みを定量化し,抽象性をカバーする新しいフレームワークであるaligneddiffを提案する。 AlignDiffはユーザーの行動と正確に一致し、効率的に切り替えることができる。このフレームワークを構築するために、まず、多様な行動の属性の比較を含むマルチパースペクティブなヒューマンフィードバックデータセットを確立し、次に、定量化された相対強度を予測する属性強度モデルをトレーニングします。行動データセットを相対的な強度で再現した後、我々は属性条件拡散モデルを訓練し、これは属性強度モデルのプランナーとして機能し、推論フェーズにおける優先順位調整のディレクタとして機能する。我々は,様々なロコモーションタスクにおけるアライディフを評価し,他のベースラインと比較して,選好マッチング,スイッチング,カバーにおいてその優れた性能を示す。人間の指示の下で見知らぬダウンストリームタスクを完了させる能力もまた、人間とAIのコラボレーションの可能性を示している。さらなる可視化ビデオがhttps://aligndiff.github.io/で公開されている。

関連論文リスト

Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。人間の外見は、これらの障害に対処するための簡単な手がかりとなる。本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-03T12:19:26Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-24T20:04:15Z)
Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文参考訳（メタデータ） (2024-08-19T15:18:30Z)
Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning [19.962212551963383]
アクティブラーニング(AL)は、モデルがユーザフィードバックからインタラクティブに学習することを可能にする。本稿では,ALに反実データ拡張手法を提案する。
論文参考訳（メタデータ） (2024-08-07T14:55:04Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
AdaptSSR: Pre-training User Model with Augmentation-Adaptive Self-Supervised Ranking [19.1857792382924]
本稿では,Augmentation-Supervised Ranking (AdaptSSR)を提案する。我々は、暗黙的に拡張されたビュー、明示的な拡張されたビュー、および他のユーザからのビューの類似性の順序をキャプチャするために、ユーザモデルを訓練する複数のペアランキング損失を採用する。 6つの下流タスクを持つパブリックデータセットとインダストリアルデータセットの実験は、AdaptSSRの有効性を検証する。
論文参考訳（メタデータ） (2023-10-15T02:19:28Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Model-agnostic Fits for Understanding Information Seeking Patterns in Humans [0.0]
不確実な意思決定タスクでは、人間はそのタスクに関連する情報を探し、統合し、行動する際、特徴的なバイアスを示す。ここでは,これらのバイアスを総合的に測定・分類した,大規模に収集した先行設計実験のデータを再検討した。これらのバイアスを集約的に再現するディープラーニングモデルを設計し、個々の行動の変化を捉えます。
論文参考訳（メタデータ） (2020-12-09T04:34:58Z)
Learning Transferrable Parameters for Long-tailed Sequential User Behavior Modeling [70.64257515361972]
テールユーザに注力することで、より多くのメリットをもたらし、長いテールの問題に対処できる、と私たちは主張しています。具体的には、頭部から尾部への知識伝達を容易にするために、勾配アライメントを提案し、敵のトレーニングスキームを採用する。
論文参考訳（メタデータ） (2020-10-22T03:12:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。