論文の概要: Towards customizable reinforcement learning agents: Enabling preference
specification through online vocabulary expansion
- arxiv url: http://arxiv.org/abs/2210.15096v1
- Date: Thu, 27 Oct 2022 00:54:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:14:04.659169
- Title: Towards customizable reinforcement learning agents: Enabling preference
specification through online vocabulary expansion
- Title(参考訳): カスタマイズ可能な強化学習エージェントを目指して:オンライン語彙拡張による選好仕様の実現
- Authors: Utkarsh Soni, Sarath Sreedharan, Mudit Verma, Lin Guan, Matthew
Marquez, Subbarao Kambhampati
- Abstract要約: 本稿では,ユーザが理解する概念の観点で好みを指定できるシステムであるpreSCAを提案する。
Minecraft環境上でPreSCAを評価し,エージェントがユーザの好みに合うように効果的に利用できることを示す。
- 参考スコア(独自算出の注目度): 25.053927377536905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in developing automated agents that can work
alongside humans. In addition to completing the assigned task, such an agent
will undoubtedly be expected to behave in a manner that is preferred by the
human. This requires the human to communicate their preferences to the agent.
To achieve this, the current approaches either require the users to specify the
reward function or the preference is interactively learned from queries that
ask the user to compare trajectories. The former approach can be challenging if
the internal representation used by the agent is inscrutable to the human while
the latter is unnecessarily cumbersome for the user if their preference can be
specified more easily in symbolic terms. In this work, we propose PRESCA
(PREference Specification through Concept Acquisition), a system that allows
users to specify their preferences in terms of concepts that they understand.
PRESCA maintains a set of such concepts in a shared vocabulary. If the relevant
concept is not in the shared vocabulary, then it is learned. To make learning a
new concept more efficient, PRESCA leverages causal associations between the
target concept and concepts that are already known. Additionally, the effort of
learning the new concept is amortized by adding the concept to the shared
vocabulary for supporting preference specification in future interactions. We
evaluate PRESCA by using it on a Minecraft environment and show that it can be
effectively used to make the agent align with the user's preference.
- Abstract(参考訳): 人間と一緒に働く自動化エージェントの開発への関心が高まっている。
割り当てられたタスクの完了に加えて、そのようなエージェントは間違いなく、人間が好む方法で振る舞うことが期待されます。
これは、人間は自分の好みをエージェントに伝える必要がある。
これを実現するために、現在のアプローチでは、ユーザが報酬関数を指定するか、あるいは、ユーザがトラジェクトリを比較するよう求めるクエリから対話的に学習する。
前者のアプローチは、エージェントが使用する内部表現が人間にとって不可避である場合、後者がシンボリック用語でより容易に指定できる場合、ユーザにとって不必要である場合、困難である。
本研究では、ユーザが理解している概念の観点で好みを指定できるシステムであるPreSCA(PREference Specification through Concept Acquisition)を提案する。
PreSCAはそのような概念の集合を共有語彙で維持する。
関連する概念が共有語彙に含まれていない場合、学習される。
新しい概念をより効率的に学習するために、PreSCAはターゲット概念とすでに知られている概念の因果関係を活用する。
さらに、新しい概念を学習する努力は、将来の相互作用における嗜好仕様をサポートするための共有語彙に概念を追加することで償却される。
prescaをminecraft環境で使用することで評価し,エージェントをユーザの好みに合わせるために効果的に使用できることを示す。
関連論文リスト
- Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - To the Noise and Back: Diffusion for Shared Autonomy [2.341116149201203]
拡散モデルの前方および逆拡散過程を変調した共有自律性に対する新しいアプローチを提案する。
我々のフレームワークは望ましい行動の空間上の分布を学習する。
次に、拡散モデルを使用して、ユーザのアクションをこのディストリビューションのサンプルに変換する。
論文 参考訳(メタデータ) (2023-02-23T18:58:36Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Imitation Learning-based Implicit Semantic-aware Communication Networks:
Multi-layer Representation and Collaborative Reasoning [68.63380306259742]
有望な可能性にもかかわらず、セマンティック通信とセマンティック・アウェア・ネットワーキングはまだ初期段階にある。
本稿では,CDCとエッジサーバの複数層を連携させる,推論に基づく暗黙的セマンティック・アウェア通信ネットワークアーキテクチャを提案する。
暗黙的セマンティクスの階層構造と個人ユーザのパーソナライズされた推論嗜好を考慮に入れたセマンティクス情報の多層表現を提案する。
論文 参考訳(メタデータ) (2022-10-28T13:26:08Z) - Relative Behavioral Attributes: Filling the Gap between Symbolic Goal
Specification and Reward Learning from Human Preferences [19.70421486855437]
非専門家のユーザは、エージェントの振る舞いの短いクリップよりも好みを表現することで、複雑な目的を表現できる。
相対的行動属性(Relative Behavioral Attributes)は、正確な目標仕様と、選好ラベルから純粋に学習する報奨の中間として機能する。
本稿では,順序付けられた行動クリップから任意の行動属性をエンコードできる2つの異なるパラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:25:23Z) - Zero-Shot Prompting for Implicit Intent Prediction and Recommendation
with Commonsense Reasoning [28.441725610692714]
本稿では,ユーザ発話に基づいて暗黙の意図を自動推論する多ドメイン対話システムを提案する。
提案フレームワークは暗黙の意図の実現に有効であり,0ショット方式でボットを推奨する。
論文 参考訳(メタデータ) (2022-10-12T03:33:49Z) - Discovering Personalized Semantics for Soft Attributes in Recommender
Systems using Concept Activation Vectors [34.56323846959459]
インタラクティブなレコメンデータシステムは、ユーザがよりリッチな方法で意図、好み、制約、コンテキストを表現することを可能にする。
課題の1つは、ユーザのセマンティックな意図を、しばしば望ましい項目を記述するために使用されるオープンエンドの用語や属性から推測することである。
このような属性のセマンティクスを捉える表現を学習し、それをレコメンデーションシステムにおけるユーザの好みや行動に結びつけるためのフレームワークを開発する。
論文 参考訳(メタデータ) (2022-02-06T18:45:15Z) - From Implicit to Explicit feedback: A deep neural network for modeling
sequential behaviours and long-short term preferences of online users [3.464871689508835]
暗黙的かつ明示的なフィードバックは、有用な推奨のために異なる役割を持つ。
ユーザの嗜好は,長期的利益と短期的利益の組み合わせである,という仮説から導かれる。
論文 参考訳(メタデータ) (2021-07-26T16:59:20Z) - A Neural Topical Expansion Framework for Unstructured Persona-oriented
Dialogue Generation [52.743311026230714]
Persona Exploration and Exploitation (PEE)は、事前に定義されたユーザペルソナ記述を意味論的に相関したコンテンツで拡張することができる。
PEEはペルソナ探索とペルソナ搾取という2つの主要なモジュールで構成されている。
提案手法は, 自動評価と人的評価の両面で, 最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-06T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。