論文の概要: Learning to Assist Agents by Observing Them
- arxiv url: http://arxiv.org/abs/2110.01311v1
- Date: Mon, 4 Oct 2021 10:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 20:54:44.074622
- Title: Learning to Assist Agents by Observing Them
- Title(参考訳): エージェントを観察して支援する学習
- Authors: Antti Keurulainen (1 and 3), Isak Westerlund (3), Samuel Kaski (1 and
2), and Alexander Ilin (1) ((1) Helsinki Institute for Information Technology
HIIT, Department of Computer Science, Aalto University, (2) Department of
Computer Science, University of Manchester, (3) Bitville Oy, Espoo, Finland)
- Abstract要約: 動作の表現を生成する能力は、まずオフラインデータで事前訓練される。
我々は、補助エージェントが補助された人工エージェントの環境を操作できるグリッドワールドで設定をテストする。
- 参考スコア(独自算出の注目度): 41.74498230885008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of an AI agent to assist other agents, such as humans, is an
important and challenging goal, which requires the assisting agent to reason
about the behavior and infer the goals of the assisted agent. Training such an
ability by using reinforcement learning usually requires large amounts of
online training, which is difficult and costly. On the other hand, offline data
about the behavior of the assisted agent might be available, but is non-trivial
to take advantage of by methods such as offline reinforcement learning. We
introduce methods where the capability to create a representation of the
behavior is first pre-trained with offline data, after which only a small
amount of interaction data is needed to learn an assisting policy. We test the
setting in a gridworld where the helper agent has the capability to manipulate
the environment of the assisted artificial agents, and introduce three
different scenarios where the assistance considerably improves the performance
of the assisted agents.
- Abstract(参考訳): aiエージェントが人間のような他のエージェントを助ける能力は重要で挑戦的な目標であり、補助エージェントが行動について判断し、支援エージェントの目標を推測する必要がある。
強化学習による訓練は、通常、大量のオンライントレーニングを必要とするが、これは困難で費用がかかる。
一方で、補助エージェントの動作に関するオフラインデータは利用可能かもしれないが、オフライン強化学習のような手法で活用するのは簡単ではない。
提案手法では,まずオフラインデータを用いて行動の表現を事前学習し,その後,補助方針を学習するために少量の対話データしか必要としない手法を提案する。
我々は,補助エージェントが補助エージェントの環境を操作できるグリッドワールドにおける設定を検証し,補助エージェントの性能が大幅に向上する3つのシナリオを紹介した。
関連論文リスト
- Efficient Training in Multi-Agent Reinforcement Learning: A Communication-Free Framework for the Box-Pushing Problem [0.5524804393257919]
本稿では,自己組織化システムのための共有プール(SPI)モデルを提案する。
SPIは、情報を全てのエージェントにアクセスし、調整を容易にし、エージェント間の力の衝突を減らし、探索効率を高める。
論文 参考訳(メタデータ) (2024-11-19T05:51:10Z) - Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households [30.33911147366425]
Smart Helpは、多様な障害を持つ人間のエージェントに対して、積極的にかつ適応的なサポートを提供することを目的としている。
本稿では,主エージェントの能力と目標の微妙な理解を提供する,イノベーティブな対戦相手モデリングモジュールを紹介する。
この結果から,AIを組み込んだ支援ロボットが,脆弱なグループの健康向上に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-13T13:03:59Z) - NOPA: Neurally-guided Online Probabilistic Assistance for Building
Socially Intelligent Home Assistants [79.27554831580309]
われわれは、家庭内の人々を支援するために、社会的にインテリジェントなロボットを構築する方法を研究する。
ロボットは人間の目標を同時に推測しなければならない。
論文 参考訳(メタデータ) (2023-01-12T18:59:34Z) - Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-11T21:53:11Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - AvE: Assistance via Empowerment [77.08882807208461]
そこで我々は,人間の環境制御能力を高めることで,支援のための新しいパラダイムを提案する。
このタスクに依存しない目的は、個人の自律性と最終的な状態を達成する能力を維持する。
論文 参考訳(メタデータ) (2020-06-26T04:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。