論文の概要: One-shot Policy Elicitation via Semantic Reward Manipulation
- arxiv url: http://arxiv.org/abs/2101.01860v1
- Date: Wed, 6 Jan 2021 04:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:05:19.488297
- Title: One-shot Policy Elicitation via Semantic Reward Manipulation
- Title(参考訳): セマンティックリワードマニピュレーションによるワンショット政策緩和
- Authors: Aaquib Tabrez, Ryan Leonard, Bradley Hayes
- Abstract要約: 本稿では,新たなシーケンシャル最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards (SPEAR)について述べる。
本研究では,SPEARが実行時および対応可能な問題サイズにおいて,最先端技術よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 2.668480521943575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synchronizing expectations and knowledge about the state of the world is an
essential capability for effective collaboration. For robots to effectively
collaborate with humans and other autonomous agents, it is critical that they
be able to generate intelligible explanations to reconcile differences between
their understanding of the world and that of their collaborators. In this work
we present Single-shot Policy Explanation for Augmenting Rewards (SPEAR), a
novel sequential optimization algorithm that uses semantic explanations derived
from combinations of planning predicates to augment agents' reward functions,
driving their policies to exhibit more optimal behavior. We provide an
experimental validation of our algorithm's policy manipulation capabilities in
two practically grounded applications and conclude with a performance analysis
of SPEAR on domains of increasingly complex state space and predicate counts.
We demonstrate that our method makes substantial improvements over the
state-of-the-art in terms of runtime and addressable problem size, enabling an
agent to leverage its own expertise to communicate actionable information to
improve another's performance.
- Abstract(参考訳): 世界の状況に関する期待と知識の同期は、効果的なコラボレーションに欠かせない能力です。
ロボットが人間や他の自律エージェントと効果的に協力するためには、世界の理解と協力者の理解の相違を和らげるために、知的な説明を生成できることが重要である。
本研究では,計画述語の組み合わせから得られた意味的説明を用いて,エージェントの報酬関数を増強し,より最適な行動を示すためのポリシーを駆動する,新しい逐次最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards(SPEAR)を提案する。
本研究では,2つの実用的基盤を持つアプリケーションにおいて,アルゴリズムのポリシー操作能力を実験的に検証し,より複雑な状態空間と述語数を持つ領域上でのSPEARの性能解析を行った。
提案手法は,実行時および対処可能な問題サイズにおいて最先端よりも大幅に改善され,エージェントが自身の専門知識を活用して動作可能な情報を伝達し,その性能を向上させることができることを示す。
関連論文リスト
- Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Explaining Reward Functions to Humans for Better Human-Robot
Collaboration [10.29932907833086]
エージェント報酬関数を記述する説明可能なAI技術は、さまざまな設定で人間とロボットのコラボレーションを強化することができる。
価値アライメント設定では、エージェントは人間の報酬関数を相互作用を通じて推測し、人間のタスクを補助することを目的としている。
本稿では,報酬説明手法における情報モダリティの分類,報酬理解のための評価手法のスイートの提案,ドメインの複雑さの4つの軸の導入について述べる。
論文 参考訳(メタデータ) (2021-10-08T15:27:23Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - "I Don't Think So": Disagreement-Based Policy Summaries for Comparing
Agents [2.6270468656705765]
本稿では,エージェントのポリシーの違いを強調するコントラスト的な要約を生成する手法を提案する。
本結果から, 新規な不一致に基づく要約は, HighLIGHTS を用いた要約に比べてユーザパフォーマンスの向上につながることが示された。
論文 参考訳(メタデータ) (2021-02-05T09:09:00Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - SPA: Verbal Interactions between Agents and Avatars in Shared Virtual
Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。
提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文 参考訳(メタデータ) (2020-02-08T23:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。