論文の概要: Relative Behavioral Attributes: Filling the Gap between Symbolic Goal
Specification and Reward Learning from Human Preferences
- arxiv url: http://arxiv.org/abs/2210.15906v1
- Date: Fri, 28 Oct 2022 05:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:38:44.658340
- Title: Relative Behavioral Attributes: Filling the Gap between Symbolic Goal
Specification and Reward Learning from Human Preferences
- Title(参考訳): 相対行動属性:象徴的目標仕様と人間の嗜好からの逆学習のギャップを埋める
- Authors: Lin Guan, Karthik Valmeekam, Subbarao Kambhampati
- Abstract要約: 非専門家のユーザは、エージェントの振る舞いの短いクリップよりも好みを表現することで、複雑な目的を表現できる。
相対的行動属性(Relative Behavioral Attributes)は、正確な目標仕様と、選好ラベルから純粋に学習する報奨の中間として機能する。
本稿では,順序付けられた行動クリップから任意の行動属性をエンコードできる2つの異なるパラメトリック手法を提案する。
- 参考スコア(独自算出の注目度): 19.70421486855437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating complex behaviors from goals specified by non-expert users is a
crucial aspect of intelligent agents. Interactive reward learning from
trajectory comparisons is one way to allow non-expert users to convey complex
objectives by expressing preferences over short clips of agent behaviors. Even
though this method can encode complex tacit knowledge present in the underlying
tasks, it implicitly assumes that the human is unable to provide rich-form
feedback other than binary preference labels, leading to extremely high
feedback complexity and poor user experience. While providing a detailed
symbolic specification of the objectives might be tempting, it is not always
feasible even for an expert user. However, in most cases, humans are aware of
how the agent should change its behavior along meaningful axes to fulfill the
underlying purpose, even if they are not able to fully specify task objectives
symbolically. Using this as motivation, we introduce the notion of Relative
Behavioral Attributes, which acts as a middle ground, between exact goal
specification and reward learning purely from preference labels, by enabling
the users to tweak the agent's behavior through nameable concepts (e.g.,
increasing the softness of the movement of a two-legged "sneaky" agent). We
propose two different parametric methods that can potentially encode any kind
of behavioral attributes from ordered behavior clips. We demonstrate the
effectiveness of our methods on 4 tasks with 9 different behavioral attributes
and show that once the attributes are learned, end users can effortlessly
produce desirable agent behaviors, by providing feedback just around 10 times.
The feedback complexity of our approach is over 10 times less than the
learning-from-human-preferences baseline and this demonstrates that our
approach is readily applicable in real-world applications.
- Abstract(参考訳): 非専門家ユーザが指定した目標から複雑な振る舞いを生成することは、インテリジェントエージェントの重要な側面である。
軌道比較によるインタラクティブな報酬学習は、非熟練のユーザーがエージェントの振る舞いの短いクリップよりも好みを表現することで複雑な目的を伝達できる方法の1つである。
この手法は、基礎となるタスクに存在する複雑な暗黙の知識を符号化することができるが、人間は二進選好ラベル以外のリッチなフィードバックを提供できないと暗黙的に仮定し、フィードバックの複雑さとユーザエクスペリエンスの低下を極端に高める。
目的の詳細なシンボリック仕様を提供するのは誘惑的かもしれませんが、専門家のユーザにとっても常に実現可能です。
しかしながら、ほとんどの場合、エージェントは、たとえタスクの目的を象徴的に完全に特定することができなくても、その目的を満たすために意味のある軸に沿ってどのように行動を変えるべきかを認識している。
これをモチベーションとして用いて,2本足の「スニーキー」エージェントの動作の柔らかさを増すなどして,ユーザがエージェントの動作をカスタマイズできるようにすることにより,正確な目標仕様と選好ラベルから純粋に学習することで,中間的基盤として機能する相対行動属性の概念を導入する。
我々は,順序付き行動クリップから任意の種類の行動属性をエンコードできる2つの異なるパラメトリック手法を提案する。
我々は,9つの異なる行動属性を持つ4つのタスクに対する手法の有効性を実証し,各属性が学習されると,エンドユーザーは10回程度のフィードバックを提供することで,望ましいエージェント動作を作成できることを示す。
このアプローチのフィードバックの複雑さは,人間からの学習基準よりも10倍以上小さく,現実のアプリケーションに容易に適用可能であることを示す。
関連論文リスト
- Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input [17.131441665935128]
より正確な報酬モデルを学ぶのに有用な例が好まれる理由について,より詳細なデータを抽出する方法を検討する。
本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2024-05-23T16:36:16Z) - Exploring the Individuality and Collectivity of Intents behind Interactions for Graph Collaborative Filtering [9.740376003100437]
本稿では,BIGCF (Bilateral Intent-Guided Graph Collaborative Filtering) に指定された新しい推薦フレームワークを提案する。
具体的には、因果的視点からユーザとイテムの相互作用を詳しく調べ、個別の意図の概念を提示する。
暗黙的なフィードバックの空間性に対抗するため、ユーザとアイテムの特徴分布はガウスベースのグラフ生成戦略を介して符号化される。
論文 参考訳(メタデータ) (2024-05-15T02:31:26Z) - Select to Perfect: Imitating desired behavior from large multi-agent data [28.145889065013687]
AIエージェントのDesired特徴は、望ましいスコアを割り当てることで表現できる。
まず,各エージェントの行動が集団的嗜好性スコアに及ぼす影響を評価する。
本稿では,エージェントの交換値の概念を提案する。これは,個々のエージェントの集団的望ましさスコアへの貢献を定量化するものである。
論文 参考訳(メタデータ) (2024-05-06T15:48:24Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation [20.266695694005943]
ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:55:08Z) - Towards customizable reinforcement learning agents: Enabling preference
specification through online vocabulary expansion [25.053927377536905]
本稿では,ユーザが理解する概念の観点で好みを指定できるシステムであるpreSCAを提案する。
Minecraft環境上でPreSCAを評価し,エージェントがユーザの好みに合うように効果的に利用できることを示す。
論文 参考訳(メタデータ) (2022-10-27T00:54:14Z) - Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation [61.114580368455236]
マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。
本稿では,ハイパーメタパスやハイパーメタグラフを構築するためのハイパーメタパスの概念を提案する。
最近のグラフコントラスト学習の成功により、異なる振る舞い間の依存関係を理解するために固定されたスキームを割り当てるのではなく、ユーザ行動パターンの埋め込みを適応的に学習する。
論文 参考訳(メタデータ) (2021-09-07T04:28:09Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。