論文の概要: AssistanceZero: Scalably Solving Assistance Games
- arxiv url: http://arxiv.org/abs/2504.07091v1
- Date: Wed, 09 Apr 2025 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:15.338774
- Title: AssistanceZero: Scalably Solving Assistance Games
- Title(参考訳): AssistanceZero: スケーラブルに解決するアシストゲーム
- Authors: Cassidy Laidlaw, Eli Bronstein, Timothy Guo, Dylan Feng, Lukas Berglund, Justin Svegliato, Stuart Russell, Anca Dragan,
- Abstract要約: 支援ゲームを解くための最初のスケーラブルなアプローチを提示する。
われわれはMinecraftをベースとした新しい支援ゲームに10400ドル以上の目標を掲げる。
我々のアプローチであるAssistanceZeroは、人間の行動と報酬を予測するニューラルネットワークでAlphaZeroを拡張します。
- 参考スコア(独自算出の注目度): 16.825890651041924
- License:
- Abstract: Assistance games are a promising alternative to reinforcement learning from human feedback (RLHF) for training AI assistants. Assistance games resolve key drawbacks of RLHF, such as incentives for deceptive behavior, by explicitly modeling the interaction between assistant and user as a two-player game where the assistant cannot observe their shared goal. Despite their potential, assistance games have only been explored in simple settings. Scaling them to more complex environments is difficult because it requires both solving intractable decision-making problems under uncertainty and accurately modeling human users' behavior. We present the first scalable approach to solving assistance games and apply it to a new, challenging Minecraft-based assistance game with over $10^{400}$ possible goals. Our approach, AssistanceZero, extends AlphaZero with a neural network that predicts human actions and rewards, enabling it to plan under uncertainty. We show that AssistanceZero outperforms model-free RL algorithms and imitation learning in the Minecraft-based assistance game. In a human study, our AssistanceZero-trained assistant significantly reduces the number of actions participants take to complete building tasks in Minecraft. Our results suggest that assistance games are a tractable framework for training effective AI assistants in complex environments. Our code and models are available at https://github.com/cassidylaidlaw/minecraft-building-assistance-game.
- Abstract(参考訳): アシストゲームは、AIアシスタントのトレーニングのための人間からのフィードバック(RLHF)からの強化学習に代わる有望な選択肢である。
補助ゲームは、アシスタントとユーザ間のインタラクションを、アシスタントが共有目標を達成できない2人プレイヤゲームとして明示的にモデル化することにより、欺く行動のインセンティブなどのRLHFのキー欠点を解消する。
その可能性にもかかわらず、アシストゲームは単純な設定でしか探索されていない。
より複雑な環境にスケールするには、不確実性の下で難解な意思決定問題を解決し、人間の振る舞いを正確にモデル化する必要があるため、困難である。
私たちは、アシストゲームを解くための最初のスケーラブルなアプローチを示し、それを10〜400ドル以上の目標を持った、新しい挑戦的なMinecraftベースのアシストゲームに適用します。
我々のアプローチであるAssistanceZeroは、人間の行動と報酬を予測するニューラルネットワークでAlphaZeroを拡張し、不確実性の下で計画することを可能にする。
AssistanceZeroは、Minecraftベースのアシストゲームにおいて、モデルなしのRLアルゴリズムと模倣学習より優れていることを示す。
人間の研究で、AssistanceZeroで訓練されたアシスタントは、Minecraftでタスクを構築するために参加者が行うアクションの数を大幅に削減します。
この結果から,複雑な環境下で効果的なAIアシスタントを訓練する上で,アシストゲームは難易度の高いフレームワークであることが示唆された。
私たちのコードとモデルはhttps://github.com/cassidylaidlaw/minecraft-build-assistance-gameで公開されています。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Lucy-SKG: Learning to Play Rocket League Efficiently Using Deep
Reinforcement Learning [0.0]
本稿では,Rocket Leagueをサンプル効率でプレイする方法を学習した強化学習ベースのモデルであるLucy-SKGを紹介する。
コントリビューションには、報酬分析と可視化ライブラリの開発、新しいパラメータ化可能な報酬形状関数、補助的ニューラルネットワークなどがある。
論文 参考訳(メタデータ) (2023-05-25T07:33:17Z) - NOPA: Neurally-guided Online Probabilistic Assistance for Building
Socially Intelligent Home Assistants [79.27554831580309]
われわれは、家庭内の人々を支援するために、社会的にインテリジェントなロボットを構築する方法を研究する。
ロボットは人間の目標を同時に推測しなければならない。
論文 参考訳(メタデータ) (2023-01-12T18:59:34Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - DL-DDA -- Deep Learning based Dynamic Difficulty Adjustment with UX and
Gameplay constraints [0.8594140167290096]
ゲームによって課される他のプレイヤーやマクロ制約を考慮して,ユーザエクスペリエンスを自動的に最適化する手法を提案する。
ゲームデザインの専門家が作成したマニュアルを,20万ドルで実験し,その成果を実演した。
論文 参考訳(メタデータ) (2021-06-06T09:47:15Z) - Should artificial agents ask for help in human-robot collaborative
problem-solving? [0.7251305766151019]
本稿では,人間とロボットの相互作用に関する実証実験から得られた仮説から始めることを提案する。
簡単なクローズドタスクを解くと、専門家から助けを受けることが、このタスクの学習を加速させるかどうかを確認する。
私たちの経験から、Q-ラーニングのアルゴリズムは、Q-ラーニングのアルゴリズムが、子供と同じように専門家の助けから恩恵を受けていると結論付けることができました。
論文 参考訳(メタデータ) (2020-05-25T09:15:30Z) - Reward Shaping for Human Learning via Inverse Reinforcement Learning [4.008936841382692]
本研究は,逆強化学習(IRL)による人間に対する報酬形成という新たなタイプの学習支援の有効性を検証する。
この支援の目的は、人間が特定のタスクに対して適切なポリシーを学習できるスピードを高めることである。
我々は,学習支援を受けた選手が,コントロールグループよりも望ましい政策に迅速にアプローチできることを統計的に示す。
論文 参考訳(メタデータ) (2020-02-25T14:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。