論文の概要: Reinforcement Learning on Human Decision Models for Uniquely
Collaborative AI Teammates
- arxiv url: http://arxiv.org/abs/2111.09800v1
- Date: Thu, 18 Nov 2021 17:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:13:22.048419
- Title: Reinforcement Learning on Human Decision Models for Uniquely
Collaborative AI Teammates
- Title(参考訳): 共同作業型AIチームメイトのための人間決定モデルの強化学習
- Authors: Nicholas Kantack
- Abstract要約: 本研究は, 人プレイ平均得点16.5を達成し, 挑戦に勝ったエージェントの開発について詳述する。
受賞者の発達は、作者の花びでの意思決定を観察し、正確にモデル化し、その後、作者の行動クローンで訓練することであった。
エージェントは、まず人間の意思決定を模倣し、次にシミュレーションされた人間のボットスコアに繋がる人間のような戦略のバリエーションを探索することで、人間の補完的なプレイスタイルを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In 2021 the Johns Hopkins University Applied Physics Laboratory held an
internal challenge to develop artificially intelligent (AI) agents that could
excel at the collaborative card game Hanabi. Agents were evaluated on their
ability to play with human players whom the agents had never previously
encountered. This study details the development of the agent that won the
challenge by achieving a human-play average score of 16.5, outperforming the
current state-of-the-art for human-bot Hanabi scores. The winning agent's
development consisted of observing and accurately modeling the author's
decision making in Hanabi, then training with a behavioral clone of the author.
Notably, the agent discovered a human-complementary play style by first
mimicking human decision making, then exploring variations to the human-like
strategy that led to higher simulated human-bot scores. This work examines in
detail the design and implementation of this human compatible Hanabi teammate,
as well as the existence and implications of human-complementary strategies and
how they may be explored for more successful applications of AI in human
machine teams.
- Abstract(参考訳): 2021年、ジョンズ・ホプキンス大学応用物理学研究所は、共同カードゲーム「ハナビ」に匹敵する人工知能(ai)エージェントを開発する社内チャレンジを行った。
エージェントは、エージェントがこれまで遭遇したことのない人間のプレーヤーと遊ぶ能力について評価された。
本研究は,人間の演奏平均得点16.5を達成し,人間ロボットハナビスコアの現況を上回り,挑戦に勝ったエージェントの開発を詳述する。
優勝エージェントの開発は、ハナビにおける著者の意思決定を観察し、正確にモデル化し、その後、著者の行動クローンでトレーニングすることであった。
エージェントは、まず人間の意思決定を模倣し、次にシミュレーションされた人間のボットスコアに繋がる人間のような戦略のバリエーションを探索することで、人間の補完的なプレイスタイルを発見した。
この研究は、人間互換のハナビチームメイトの設計と実装、および人間の補完戦略の存在と意味、そして、人間のマシンチームにおけるAIのより成功した応用のためにそれらがどのように探索されるのかを詳細に調べる。
関連論文リスト
- Enhancing Human Experience in Human-Agent Collaboration: A
Human-Centered Modeling Approach Based on Positive Human Gain [18.968232976619912]
協調型AIエージェントのための「人間中心型」モデリング手法を提案する。
エージェントは、エージェントの本来の能力を維持しながら、人間がこれらの目標を達成する度合いを高めることを学ぶべきである。
マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲーム「Honor of Kings」におけるRLHGエージェントの評価を行った。
論文 参考訳(メタデータ) (2024-01-28T05:05:57Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - BO-Muse: A human expert and AI teaming framework for accelerated
experimental design [58.61002520273518]
我々のアルゴリズムは、人間の専門家が実験プロセスでリードすることを可能にする。
我々のアルゴリズムは、AIや人間よりも高速に、サブ線形に収束することを示す。
論文 参考訳(メタデータ) (2023-03-03T02:56:05Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は,競争行動の社会的影響に基づく新しい強化学習機構を提案する。
提案モデルでは, 人工エージェントの学習を調節するための競合スコアを導出するために, 客観的, 社会的認知的メカニズムを集約する。
論文 参考訳(メタデータ) (2022-08-22T14:06:06Z) - Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi [0.0]
我々は,ルールベースエージェントと学習ベースエージェントの両方を用いて,協力型カードゲームEmphHanabiにおける人間とAIエージェントのチームを評価する。
人間は、最先端の学習ベースのAIチームメイトよりも、ルールベースのAIチームメイトをはっきりと好みます。
論文 参考訳(メタデータ) (2021-07-15T22:19:15Z) - Learning Models of Individual Behavior in Chess [4.793072503820555]
チェスにおける個人行動の高精度な予測モデルを構築した。
私たちの研究は、AIシステムを個人の行動とよりよく一致させる方法を示しています。
論文 参考訳(メタデータ) (2020-08-23T18:24:21Z) - Real-World Human-Robot Collaborative Reinforcement Learning [6.089774484591287]
本研究では,人間ロボットによる協調型迷路ゲームの現実的な構成について述べる。
ロボットエージェントの制御には深層強化学習を用い,実戦30分以内の結果を得た。
本研究では,人間とロボットエージェント間の時間的相互政治学習の結果を提示し,各参加者のエージェントがゲームプレイの表現として機能することを示す。
論文 参考訳(メタデータ) (2020-03-02T19:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。