論文の概要: Toward Human-AI Alignment in Large-Scale Multi-Player Games
- arxiv url: http://arxiv.org/abs/2402.03575v1
- Date: Mon, 5 Feb 2024 22:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:18:40.260076
- Title: Toward Human-AI Alignment in Large-Scale Multi-Player Games
- Title(参考訳): 大規模マルチプレイヤーゲームにおけるヒューマンAIアライメントに向けて
- Authors: Sugandha Sharma, Guy Davidson, Khimya Khetarpal, Anssi Kanervisto,
Udit Arora, Katja Hofmann, Ida Momennejad
- Abstract要約: 我々はXboxのBleeding Edge(100K+ゲーム)から広範囲にわたる人間のゲームプレイデータを解析する。
人間のプレイヤーは、戦闘飛行や探索飛行行動において多様性を示す一方で、AIプレイヤーは均一性に向かう傾向にある。
これらの大きな違いは、ヒューマンアラインアプリケーションにおけるAIの解釈可能な評価、設計、統合の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 25.851632651607915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-AI alignment in complex multi-agent games is crucial for
creating trustworthy AI agents that enhance gameplay. We propose a method to
evaluate this alignment using an interpretable task-sets framework, focusing on
high-level behavioral tasks instead of low-level policies. Our approach has
three components. First, we analyze extensive human gameplay data from Xbox's
Bleeding Edge (100K+ games), uncovering behavioral patterns in a complex task
space. This task space serves as a basis set for a behavior manifold capturing
interpretable axes: fight-flight, explore-exploit, and solo-multi-agent.
Second, we train an AI agent to play Bleeding Edge using a Generative
Pretrained Causal Transformer and measure its behavior. Third, we project human
and AI gameplay to the proposed behavior manifold to compare and contrast. This
allows us to interpret differences in policy as higher-level behavioral
concepts, e.g., we find that while human players exhibit variability in
fight-flight and explore-exploit behavior, AI players tend towards uniformity.
Furthermore, AI agents predominantly engage in solo play, while humans often
engage in cooperative and competitive multi-agent patterns. These stark
differences underscore the need for interpretable evaluation, design, and
integration of AI in human-aligned applications. Our study advances the
alignment discussion in AI and especially generative AI research, offering a
measurable framework for interpretable human-agent alignment in multiplayer
gaming.
- Abstract(参考訳): 複雑なマルチエージェントゲームにおける人間とAIのアライメントを達成することは、ゲームプレイを強化する信頼できるAIエージェントを作成するために不可欠である。
低レベルのポリシーではなく、高レベルな動作タスクに焦点を当てた、解釈可能なタスクセットフレームワークを用いて、このアライメントを評価する方法を提案する。
このアプローチには3つのコンポーネントがあります。
まず,XboxのBleeding Edge(100K+ゲーム)から,複雑なタスク空間における行動パターンを明らかにすることで,人間のゲームプレイデータを解析する。
このタスク空間は、ファイト・フライト、エクスプロイト・エクスプロイト、ソロ・マルチエージェントといった解釈可能な軸をキャプチャする行動多様体の基礎セットとして機能する。
第2に、生成事前学習因果変換器を用いてBleeding EdgeをプレイするようにAIエージェントを訓練し、その動作を測定する。
第3に、提案した行動多様体に人間とAIのゲームプレイを投影し、比較と対比を行う。
これにより、政策の違いを高度な行動概念として解釈することができる。例えば、人間のプレイヤーが戦闘飛行や探索的行動において変動を示す一方で、AIプレイヤーは均一性に向かう傾向がある。
さらに、AIエージェントは主にソロプレイに従事し、人間はしばしば協調的で競争的なマルチエージェントパターンに従事している。
これらの大きな違いは、ヒューマンアラインアプリケーションにおけるAIの解釈可能な評価、設計、統合の必要性を強調している。
我々の研究は、AIにおけるアライメントの議論、特に生成的AI研究を前進させ、マルチプレイヤーゲームにおける人間のエージェントアライメントを解釈可能なフレームワークを提供する。
関連論文リスト
- GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - CivRealm: A Learning and Reasoning Odyssey in Civilization for
Decision-Making Agents [63.79739920174535]
文明ゲームに触発された環境であるCivRealmを紹介する。
CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文 参考訳(メタデータ) (2024-01-19T09:14:11Z) - Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文 参考訳(メタデータ) (2024-01-08T16:15:43Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Navigates Like Me: Understanding How People Evaluate Human-Like AI in
Video Games [36.96985093527702]
エージェントとベースラインAIエージェントが生成するナビゲーション行動の人間的類似性を比較したクラウドソースによる数百のアセスメントを収集する。
提案するエージェントはチューリングテストに合格するが,ベースラインエージェントは合格しない。
この研究は、ゴール指向のビデオゲームナビゲーションの文脈において、人間が人間的と考える特性に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-03-02T18:59:04Z) - Generative Personas That Behave and Experience Like Humans [3.611888922173257]
生成AIエージェントは、ルール、報酬、または人間のデモンストレーションとして表される特定の演奏行動の模倣を試みる。
我々は、行動手続き的ペルソナの概念をプレイヤー体験に適応させるよう拡張し、プレイヤーが人間のように行動し、経験できる生成エージェントを調べる。
その結果, 生成したエージェントは, 模倣を意図した人物のプレイスタイルや経験的反応を呈することが示唆された。
論文 参考訳(メタデータ) (2022-08-26T12:04:53Z) - Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi [0.0]
我々は,ルールベースエージェントと学習ベースエージェントの両方を用いて,協力型カードゲームEmphHanabiにおける人間とAIエージェントのチームを評価する。
人間は、最先端の学習ベースのAIチームメイトよりも、ルールベースのAIチームメイトをはっきりと好みます。
論文 参考訳(メタデータ) (2021-07-15T22:19:15Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z) - Real-World Human-Robot Collaborative Reinforcement Learning [6.089774484591287]
本研究では,人間ロボットによる協調型迷路ゲームの現実的な構成について述べる。
ロボットエージェントの制御には深層強化学習を用い,実戦30分以内の結果を得た。
本研究では,人間とロボットエージェント間の時間的相互政治学習の結果を提示し,各参加者のエージェントがゲームプレイの表現として機能することを示す。
論文 参考訳(メタデータ) (2020-03-02T19:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。