論文の概要: Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations
- arxiv url: http://arxiv.org/abs/2403.03407v4
- Date: Thu, 03 Oct 2024 03:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:53:38.477089
- Title: Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations
- Title(参考訳): 人間対機械:ウォーゲームシミュレーションにおける専門家人間と言語モデル間の行動的差異
- Authors: Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro, Jacquelyn Schneider, Harold Trinkunas,
- Abstract要約: 大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と異なる振る舞いを示す。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
- 参考スコア(独自算出の注目度): 1.6108153271585284
- License:
- Abstract: To some, the advent of artificial intelligence (AI) promises better decision-making and increased military effectiveness while reducing the influence of human error and emotions. However, there is still debate about how AI systems, especially large language models (LLMs) that can be applied to many tasks, behave compared to humans in high-stakes military decision-making scenarios with the potential for increased risks towards escalation. To test this potential and scrutinize the use of LLMs for such purposes, we use a new wargame experiment with 214 national security experts designed to examine crisis escalation in a fictional U.S.-China scenario and compare the behavior of human player teams to LLM-simulated team responses in separate simulations. Here, we find that the LLM-simulated responses can be more aggressive and significantly affected by changes in the scenario. We show a considerable high-level agreement in the LLM and human responses and significant quantitative and qualitative differences in individual actions and strategic tendencies. These differences depend on intrinsic biases in LLMs regarding the appropriate level of violence following strategic instructions, the choice of LLM, and whether the LLMs are tasked to decide for a team of players directly or first to simulate dialog between a team of players. When simulating the dialog, the discussions lack quality and maintain a farcical harmony. The LLM simulations cannot account for human player characteristics, showing no significant difference even for extreme traits, such as "pacifist" or "aggressive sociopath." When probing behavioral consistency across individual moves of the simulation, the tested LLMs deviated from each other but generally showed somewhat consistent behavior. Our results motivate policymakers to be cautious before granting autonomy or following AI-based strategy recommendations.
- Abstract(参考訳): 人工知能(AI)の出現は、人間の誤りや感情の影響を減らしながら、より良い意思決定と軍事的効果を約束する者もいる。
しかし、多くのタスクに適用可能なAIシステム、特に大規模言語モデル(LLM)が、エスカレーションに対するリスクが増大する可能性を秘めている軍事的意思決定シナリオにおいて、人間と比較してどのように振る舞うかについては、依然として議論がある。
この可能性を検証し、LLMの使用を精査するために、米国と中国の架空のシナリオにおける危機エスカレーションを調査し、人間のプレイヤーチームの行動とLLMシミュレーションされたチームの反応を別々のシミュレーションで比較するように設計された214人の国家安全保障専門家による新たなウォーゲーム実験を使用する。
ここでは, LLMシミュレーションによる応答は, シナリオの変化によってより攻撃的になり, 影響が大きいことが判明した。
LLMとヒトの反応にはかなり高いレベルの一致を示し、個々の行動と戦略傾向の有意な量的および質的な差異を示した。
これらの違いは、戦略的な指示による暴力の適切なレベル、LSMの選択、LLMがプレイヤーのチームを直接決定するか、最初にプレイヤーのチーム間の対話をシミュレートするかに関して、LSMの固有のバイアスに依存する。
ダイアログをシミュレートする場合、議論は品質を欠き、極端に調和を維持します。
LLMシミュレーションは「平和主義者」や「攻撃的な社会パス」のような極端な特徴でさえ有意な違いを示さず、人間のプレイヤーの特徴を説明できない。
シミュレーションの個々の動作間での挙動整合性を求めると、試験されたLCMは互いに逸脱するが、概して何らかの一貫した挙動を示す。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
関連論文リスト
- Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games [7.504095239018173]
LLM(Large Language Model)ベースのエージェントは、現実のタスクを担い、人間の社会と関わるようになっている。
本研究では,これらのAIエージェントの利他的行動に異なるペルソナと実験的フレーミングがどのような影響を及ぼすかを検討する。
これらのAIエージェントは、人為的なデータに基づいて訓練されているにもかかわらず、人間の決定を正確に予測することはできない。
論文 参考訳(メタデータ) (2024-10-28T17:47:41Z) - Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game [3.8284679578037246]
We use the language logic game Who is Undercover?' as a experimental platform to propose the Multi-Perspective Team Tactic (MPTT) framework。
MPTTは、LLMの人間的な言語表現ロジック、多次元思考、複雑なシナリオにおける自己認識の育成を目的としている。
予備的な結果は、MPTTとWIUが組み合わさって、LLMの認知能力を活用して、現実社会をシミュレートできる意思決定フレームワークを作成することを示している。
論文 参考訳(メタデータ) (2024-10-20T06:41:31Z) - Measuring Free-Form Decision-Making Inconsistency of Language Models in Military Crisis Simulations [12.887834116390358]
BERTScoreに基づくメトリクスを用いて、応答の不整合を定量的に測定する。
その結果,5つのLMは意味的差異を示す不整合のレベルを示すことがわかった。
我々は、軍事的決定を通知するためにLMを使用する前に、さらなる検討を行うことを推奨する。
論文 参考訳(メタデータ) (2024-10-17T04:12:17Z) - FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas [23.26678104324838]
FairMindSimを導入し、不公平なシナリオを通じて道徳的ジレンマをシミュレートした。
我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。
以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T11:39:05Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。