論文の概要: Multi-Principal Assistance Games
- arxiv url: http://arxiv.org/abs/2007.09540v1
- Date: Sun, 19 Jul 2020 00:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 00:16:59.137016
- Title: Multi-Principal Assistance Games
- Title(参考訳): マルチプリンシパルアシストゲーム
- Authors: Arnaud Fickinger, Simon Zhuang, Dylan Hadfield-Menell, Stuart Russell
- Abstract要約: 社会的選択論や投票理論における不合理性定理はそのようなゲームに適用できる。
我々は特に、人間がまず腕の好みを示すために行動するバンディットの見習いゲームを分析する。
本稿では,選好推論と社会福祉最適化を組み合わせるために,システムの共有制御を用いた社会的選択手法を提案する。
- 参考スコア(独自算出の注目度): 11.85513759444069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assistance games (also known as cooperative inverse reinforcement learning
games) have been proposed as a model for beneficial AI, wherein a robotic agent
must act on behalf of a human principal but is initially uncertain about the
humans payoff function. This paper studies multi-principal assistance games,
which cover the more general case in which the robot acts on behalf of N humans
who may have widely differing payoffs. Impossibility theorems in social choice
theory and voting theory can be applied to such games, suggesting that
strategic behavior by the human principals may complicate the robots task in
learning their payoffs. We analyze in particular a bandit apprentice game in
which the humans act first to demonstrate their individual preferences for the
arms and then the robot acts to maximize the sum of human payoffs. We explore
the extent to which the cost of choosing suboptimal arms reduces the incentive
to mislead, a form of natural mechanism design. In this context we propose a
social choice method that uses shared control of a system to combine preference
inference with social welfare optimization.
- Abstract(参考訳): 補助ゲーム(協調逆強化学習ゲームとも呼ばれる)は有益aiのモデルとして提案されており、ロボットエージェントは人間のプリンシパルに代わって行動しなければならないが、当初は人間の報酬機能について不確かである。
本稿では,ロボットがn人に代わって行動するより一般的なケースをカバーするマルチプリンシパル・アシスタンスゲームについて検討する。
社会的選択論や投票理論における不合理性定理はそのようなゲームに適用でき、人間のプリンシパルによる戦略的行動は、支払いを学ぶ際にロボットのタスクを複雑にする可能性があることを示唆している。
特に,人間がまず腕に対する個人の好みを示すために行動し,次にロボットが人間の報酬の合計を最大化するために行動するバンディットの見習いゲームを分析した。
我々は,準最適アームの選択コストが,自然機構設計の一形態であるミスリードに対するインセンティブを減少させる程度について検討する。
この文脈では,選好推論と社会福祉最適化を組み合わせるために,システムの共有制御を用いた社会的選択手法を提案する。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - RoboPianist: Dexterous Piano Playing with Deep Reinforcement Learning [61.10744686260994]
本稿では,150曲のピアノ作品の大規模なレパートリーをシミュレートして学習するシステムであるRoboPianistを紹介する。
また,オープンソース環境,タスクのベンチマーク,解釈可能な評価指標,今後の研究課題についても紹介する。
論文 参考訳(メタデータ) (2023-04-09T03:53:05Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Two ways to make your robot proactive: reasoning about human intentions,
or reasoning about possible futures [69.03494351066846]
ロボットをアクティブにする方法を2つ検討する。
1つの方法は人間の意図を認識し、あなたが交差しようとしているドアを開くなど、それらを満たすために行動することである。
もう1つの方法は、将来起こりうる脅威や機会を推論し、それを防ぐか、または育てるために行動することである。
論文 参考訳(メタデータ) (2022-05-11T13:33:14Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Doing Right by Not Doing Wrong in Human-Robot Collaboration [8.078753289996417]
本研究では,ポジティブ行動の再現ではなく,ネガティブ行動の回避によって,公平で社会的行動を学ぶための新しいアプローチを提案する。
本研究では,ロボット操作における社会性の導入の重要性と,人間とロボットの相互作用における公平性を検討することの重要性を強調した。
論文 参考訳(メタデータ) (2022-02-05T23:05:10Z) - Human-centered mechanism design with Democratic AI [9.832311262933285]
私たちは、Democratic AIと呼ばれる、ループ内の人間研究パイプラインを開発します。
強化学習は、人間が多数派で好む社会メカニズムを設計するために用いられる。
人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
論文 参考訳(メタデータ) (2022-01-27T10:56:33Z) - Multi-Principal Assistance Games: Definition and Collegial Mechanisms [16.491889275389457]
マルチプリンシパルアシスタンスゲーム(MPAG)の概念を紹介します。
MPAGでは、1つのエージェントが、広く異なる嗜好を持つ可能性のあるN人のヒトのプリンシパルを支援する。
特に見習い学習の一般化について分析し,人間は実用性を得るために最初にいくつかの作業を行い,その嗜好を実証する。
論文 参考訳(メタデータ) (2020-12-29T00:06:47Z) - When Humans Aren't Optimal: Robots that Collaborate with Risk-Aware
Humans [16.21572727245082]
安全かつ効率的に協力するためには、ロボットは人間のパートナーがどのように振る舞うかを予測する必要がある。
本稿では,累積プロスペクト理論(Cumulative Prospect Theory)と呼ばれる行動経済学から,よく知られたリスク対応人間モデルを採用する。
これにより、モデリング精度が向上し、より安全で効率的な人間とロボットのコラボレーションがもたらされることが判明した。
論文 参考訳(メタデータ) (2020-01-13T16:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。