論文の概要: AvE: Assistance via Empowerment
- arxiv url: http://arxiv.org/abs/2006.14796v5
- Date: Thu, 7 Jan 2021 20:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:32:28.609443
- Title: AvE: Assistance via Empowerment
- Title(参考訳): AvE: エンパワーメントによる支援
- Authors: Yuqing Du, Stas Tiomkin, Emre Kiciman, Daniel Polani, Pieter Abbeel,
Anca Dragan
- Abstract要約: そこで我々は,人間の環境制御能力を高めることで,支援のための新しいパラダイムを提案する。
このタスクに依存しない目的は、個人の自律性と最終的な状態を達成する能力を維持する。
- 参考スコア(独自算出の注目度): 77.08882807208461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One difficulty in using artificial agents for human-assistive applications
lies in the challenge of accurately assisting with a person's goal(s). Existing
methods tend to rely on inferring the human's goal, which is challenging when
there are many potential goals or when the set of candidate goals is difficult
to identify. We propose a new paradigm for assistance by instead increasing the
human's ability to control their environment, and formalize this approach by
augmenting reinforcement learning with human empowerment. This task-agnostic
objective preserves the person's autonomy and ability to achieve any eventual
state. We test our approach against assistance based on goal inference,
highlighting scenarios where our method overcomes failure modes stemming from
goal ambiguity or misspecification. As existing methods for estimating
empowerment in continuous domains are computationally hard, precluding its use
in real time learned assistance, we also propose an efficient
empowerment-inspired proxy metric. Using this, we are able to successfully
demonstrate our method in a shared autonomy user study for a challenging
simulated teleoperation task with human-in-the-loop training.
- Abstract(参考訳): 人工エージェントを人間の補助的応用に使用することの難しさは、人の目標を正確に支援することにある。
既存の手法は人間の目標の推測に頼りがちであり、多くの潜在的な目標がある場合や、候補となる目標のセットを特定するのが難しい場合には困難である。
本研究では,環境制御能力を高めることで支援のための新しいパラダイムを提案し,強化学習を人間のエンパワーメントで強化することでそのアプローチを定式化する。
このタスク非依存の目標は、人の自律性と最終的な状態を達成する能力を維持する。
我々は,目標の曖昧さや不特定性から生じる障害モードを克服するシナリオを強調し,目標推定に基づく支援に対するアプローチをテストする。
連続領域におけるエンパワーメントを推定する既存の手法は、リアルタイムの学習支援での使用を除いて計算が困難であるため、効率的なエンパワーメントに着想を得たプロキシメトリックも提案する。
そこで,この手法を共有自律型ユーザスタディで実証し,人・人・ループ訓練による遠隔操作課題に挑戦することに成功した。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households [30.33911147366425]
Smart Helpは、多様な障害を持つ人間のエージェントに対して、積極的にかつ適応的なサポートを提供することを目的としている。
本稿では,主エージェントの能力と目標の微妙な理解を提供する,イノベーティブな対戦相手モデリングモジュールを紹介する。
この結果から,AIを組み込んだ支援ロボットが,脆弱なグループの健康向上に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-13T13:03:59Z) - NOPA: Neurally-guided Online Probabilistic Assistance for Building
Socially Intelligent Home Assistants [79.27554831580309]
われわれは、家庭内の人々を支援するために、社会的にインテリジェントなロボットを構築する方法を研究する。
ロボットは人間の目標を同時に推測しなければならない。
論文 参考訳(メタデータ) (2023-01-12T18:59:34Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。