論文の概要: Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations
- arxiv url: http://arxiv.org/abs/2403.03407v3
- Date: Wed, 31 Jul 2024 03:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 20:25:13.769827
- Title: Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations
- Title(参考訳): 人間対機械:ウォーゲームシミュレーションにおける専門家人間と言語モデル間の行動的差異
- Authors: Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro, Jacquelyn Schneider, Harold Trinkunas,
- Abstract要約: 大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と比較してどのように振る舞うかを考察する。
LLM-simulated response はシナリオの変化によってより攻撃的かつ大きな影響を受けやすいことを示す。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
- 参考スコア(独自算出の注目度): 1.6108153271585284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To some, the advent of AI promises better decision-making and increased military effectiveness while reducing the influence of human error and emotions. However, there is still debate about how AI systems, especially large language models (LLMs) that can be applied to many tasks, behave compared to humans in high-stakes military decision-making scenarios with the potential for increased risks towards escalation and unnecessary conflicts. To test this potential and scrutinize the use of LLMs for such purposes, we use a new wargame experiment with 107 national security experts designed to examine crisis escalation in a fictional US-China scenario and compare the behavior of human player teams to LLM-simulated team responses in separate simulations. Here, we find that the LLM-simulated responses can be more aggressive and significantly affected by changes in the scenario. We show a considerable high-level agreement in the LLM and human responses and significant quantitative and qualitative differences in individual actions and strategic tendencies. These differences depend on intrinsic biases in LLMs regarding the appropriate level of violence following strategic instructions, the choice of LLM, and whether the LLMs are tasked to decide for a team of players directly or first to simulate dialog between a team of players. When simulating the dialog, the discussions lack quality and maintain a farcical harmony. The LLM simulations cannot account for human player characteristics, showing no significant difference even for extreme traits, such as "pacifist" or "aggressive sociopath." When probing behavioral consistency across individual moves of the simulation, the tested LLMs deviated from each other but generally showed somewhat consistent behavior. Our results motivate policymakers to be cautious before granting autonomy or following AI-based strategy recommendations.
- Abstract(参考訳): 一部の人にとって、AIの出現は、より良い意思決定と軍事効果の向上を約束すると同時に、人間のエラーや感情の影響を減らす。
しかし、多くのタスクに適用可能なAIシステム、特に大規模言語モデル(LLM)が、エスカレーションや不必要な紛争に対するリスクの増加の可能性を持つ、高い軍事的意思決定シナリオにおいて、人間と比較してどのように振る舞うかについては、依然として議論がある。
この可能性を検証し、LLMの使用を精査するために、我々は、架空の米中シナリオにおける危機エスカレーションを調査し、人間のプレイヤーチームの行動とLLMシミュレーションされたチームの反応を別々のシミュレーションで比較するように設計された107人の国家安全保障専門家による新たなウォーゲーム実験を使用する。
ここでは, LLMシミュレーションによる応答は, シナリオの変化によってより攻撃的になり, 影響が大きいことが判明した。
LLMとヒトの反応にはかなり高いレベルの一致を示し、個々の行動と戦略傾向の有意な量的および質的な差異を示した。
これらの違いは、戦略的な指示による暴力の適切なレベル、LSMの選択、LLMがプレイヤーのチームを直接決定するか、最初にプレイヤーのチーム間の対話をシミュレートするかに関して、LSMの固有のバイアスに依存する。
ダイアログをシミュレートする場合、議論は品質を欠き、極端に調和を維持します。
LLMシミュレーションは「平和主義者」や「攻撃的な社会パス」のような極端な特徴でさえ有意な違いを示さず、人間のプレイヤーの特徴を説明できない。
シミュレーションの個々の動作間での挙動整合性を求めると、試験されたLCMは互いに逸脱するが、概して何らかの一貫した挙動を示した。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
関連論文リスト
- Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - Toward Human-AI Alignment in Large-Scale Multi-Player Games [24.784173202415687]
我々はXboxのBleeding Edge(100K+ゲーム)から広範囲にわたる人間のゲームプレイデータを解析する。
人間のプレイヤーは、戦闘飛行や探索飛行行動において多様性を示す一方で、AIプレイヤーは均一性に向かう傾向にある。
これらの大きな違いは、ヒューマンアラインアプリケーションにおけるAIの解釈可能な評価、設計、統合の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-05T22:55:33Z) - CivRealm: A Learning and Reasoning Odyssey in Civilization for
Decision-Making Agents [63.79739920174535]
文明ゲームに触発された環境であるCivRealmを紹介する。
CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文 参考訳(メタデータ) (2024-01-19T09:14:11Z) - Escalation Risks from Language Models in Military and Diplomatic
Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。
我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。
我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文 参考訳(メタデータ) (2024-01-07T07:59:10Z) - War and Peace (WarAgent): Large Language Model-based Multi-Agent
Simulation of World Wars [40.489161847202325]
LLMを利用したマルチエージェントAIシステムである textbfWarAgent を提案する。
シミュレーションの有効性を評価することにより,最先端AIシステムの能力の進歩と限界を検討する。
我々の発見は、紛争解決と平和維持戦略にどのようにアプローチするかを再定義する、データ駆動およびAIによる洞察を提供する。
論文 参考訳(メタデータ) (2023-11-28T20:59:49Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Modeling Strong and Human-Like Gameplay with KL-Regularized Search [64.24339197581769]
我々は,多エージェント意思決定問題において,強いが人間的な政策を構築するという課題を考察する。
模倣学習は人間の行動を予測するのに効果的であるが、熟練した人間の強さと一致しない可能性がある。
チェスと囲碁において、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化することで、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成することを示す。
論文 参考訳(メタデータ) (2021-12-14T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。