論文の概要: One-shot Policy Elicitation via Semantic Reward Manipulation
- arxiv url: http://arxiv.org/abs/2101.01860v1
- Date: Wed, 6 Jan 2021 04:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:05:19.488297
- Title: One-shot Policy Elicitation via Semantic Reward Manipulation
- Title(参考訳): セマンティックリワードマニピュレーションによるワンショット政策緩和
- Authors: Aaquib Tabrez, Ryan Leonard, Bradley Hayes
- Abstract要約: 本稿では,新たなシーケンシャル最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards (SPEAR)について述べる。
本研究では,SPEARが実行時および対応可能な問題サイズにおいて,最先端技術よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 2.668480521943575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synchronizing expectations and knowledge about the state of the world is an
essential capability for effective collaboration. For robots to effectively
collaborate with humans and other autonomous agents, it is critical that they
be able to generate intelligible explanations to reconcile differences between
their understanding of the world and that of their collaborators. In this work
we present Single-shot Policy Explanation for Augmenting Rewards (SPEAR), a
novel sequential optimization algorithm that uses semantic explanations derived
from combinations of planning predicates to augment agents' reward functions,
driving their policies to exhibit more optimal behavior. We provide an
experimental validation of our algorithm's policy manipulation capabilities in
two practically grounded applications and conclude with a performance analysis
of SPEAR on domains of increasingly complex state space and predicate counts.
We demonstrate that our method makes substantial improvements over the
state-of-the-art in terms of runtime and addressable problem size, enabling an
agent to leverage its own expertise to communicate actionable information to
improve another's performance.
- Abstract(参考訳): 世界の状況に関する期待と知識の同期は、効果的なコラボレーションに欠かせない能力です。
ロボットが人間や他の自律エージェントと効果的に協力するためには、世界の理解と協力者の理解の相違を和らげるために、知的な説明を生成できることが重要である。
本研究では,計画述語の組み合わせから得られた意味的説明を用いて,エージェントの報酬関数を増強し,より最適な行動を示すためのポリシーを駆動する,新しい逐次最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards(SPEAR)を提案する。
本研究では,2つの実用的基盤を持つアプリケーションにおいて,アルゴリズムのポリシー操作能力を実験的に検証し,より複雑な状態空間と述語数を持つ領域上でのSPEARの性能解析を行った。
提案手法は,実行時および対処可能な問題サイズにおいて最先端よりも大幅に改善され,エージェントが自身の専門知識を活用して動作可能な情報を伝達し,その性能を向上させることができることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Reinforcing Language Agents via Policy Optimization with Action Decomposition [36.984163245259936]
本稿では,アクションレベルからトークンレベルへの言語エージェントの最適化を提案する。
次に、アクション内トークンとアクション間トークンの両方に対するクレジット代入を統合するために、アクション分解(BAD)を用いてベルマンバックアップを導出する。
PPOアルゴリズムにおけるBADの実装, 行動分解による政策最適化(POAD)の導入
論文 参考訳(メタデータ) (2024-05-23T14:01:44Z) - Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - "I Don't Think So": Disagreement-Based Policy Summaries for Comparing
Agents [2.6270468656705765]
本稿では,エージェントのポリシーの違いを強調するコントラスト的な要約を生成する手法を提案する。
本結果から, 新規な不一致に基づく要約は, HighLIGHTS を用いた要約に比べてユーザパフォーマンスの向上につながることが示された。
論文 参考訳(メタデータ) (2021-02-05T09:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。