Fugu-MT 論文翻訳(概要): Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations

論文の概要: Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations

arxiv url: http://arxiv.org/abs/2403.03407v4
Date: Thu, 03 Oct 2024 03:51:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 01:58:15.124024
Title: Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations
Title（参考訳）: 人間対機械:ウォーゲームシミュレーションにおける専門家人間と言語モデル間の行動的差異
Authors: Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro, Jacquelyn Schneider, Harold Trinkunas,
Abstract要約: 大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と異なる振る舞いを示す。当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
参考スコア（独自算出の注目度）: 1.6108153271585284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To some, the advent of artificial intelligence (AI) promises better decision-making and increased military effectiveness while reducing the influence of human error and emotions. However, there is still debate about how AI systems, especially large language models (LLMs) that can be applied to many tasks, behave compared to humans in high-stakes military decision-making scenarios with the potential for increased risks towards escalation. To test this potential and scrutinize the use of LLMs for such purposes, we use a new wargame experiment with 214 national security experts designed to examine crisis escalation in a fictional U.S.-China scenario and compare the behavior of human player teams to LLM-simulated team responses in separate simulations. Here, we find that the LLM-simulated responses can be more aggressive and significantly affected by changes in the scenario. We show a considerable high-level agreement in the LLM and human responses and significant quantitative and qualitative differences in individual actions and strategic tendencies. These differences depend on intrinsic biases in LLMs regarding the appropriate level of violence following strategic instructions, the choice of LLM, and whether the LLMs are tasked to decide for a team of players directly or first to simulate dialog between a team of players. When simulating the dialog, the discussions lack quality and maintain a farcical harmony. The LLM simulations cannot account for human player characteristics, showing no significant difference even for extreme traits, such as "pacifist" or "aggressive sociopath." When probing behavioral consistency across individual moves of the simulation, the tested LLMs deviated from each other but generally showed somewhat consistent behavior. Our results motivate policymakers to be cautious before granting autonomy or following AI-based strategy recommendations.
Abstract（参考訳）: 人工知能(AI)の出現は、人間の誤りや感情の影響を減らしながら、より良い意思決定と軍事的効果を約束する者もいる。しかし、多くのタスクに適用可能なAIシステム、特に大規模言語モデル(LLM)が、エスカレーションに対するリスクが増大する可能性を秘めている軍事的意思決定シナリオにおいて、人間と比較してどのように振る舞うかについては、依然として議論がある。この可能性を検証し、LLMの使用を精査するために、米国と中国の架空のシナリオにおける危機エスカレーションを調査し、人間のプレイヤーチームの行動とLLMシミュレーションされたチームの反応を別々のシミュレーションで比較するように設計された214人の国家安全保障専門家による新たなウォーゲーム実験を使用する。ここでは, LLMシミュレーションによる応答は, シナリオの変化によってより攻撃的になり, 影響が大きいことが判明した。 LLMとヒトの反応にはかなり高いレベルの一致を示し、個々の行動と戦略傾向の有意な量的および質的な差異を示した。これらの違いは、戦略的な指示による暴力の適切なレベル、LSMの選択、LLMがプレイヤーのチームを直接決定するか、最初にプレイヤーのチーム間の対話をシミュレートするかに関して、LSMの固有のバイアスに依存する。ダイアログをシミュレートする場合、議論は品質を欠き、極端に調和を維持します。 LLMシミュレーションは「平和主義者」や「攻撃的な社会パス」のような極端な特徴でさえ有意な違いを示さず、人間のプレイヤーの特徴を説明できない。シミュレーションの個々の動作間での挙動整合性を求めると、試験されたLCMは互いに逸脱するが、概して何らかの一貫した挙動を示す。当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。

関連論文リスト

Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution [7.599497643290519]
大規模言語モデル (LLMs) は、社会的環境における人間の振る舞いをシミュレートするためにますます使われている。これらのシミュレーションがヒトで観察される性格行動パターンを再現するかどうかは不明である。
論文参考訳（メタデータ） (2026-02-07T07:20:24Z)
Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。 LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文参考訳（メタデータ） (2025-10-31T19:40:41Z)
TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。 TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-10-29T14:00:42Z)
Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文参考訳（メタデータ） (2025-10-24T06:08:41Z)
Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文参考訳（メタデータ） (2025-10-13T13:33:30Z)
What-If Analysis of Large Language Models: Explore the Game World Using Proactive Thinking [50.72154186522052]
大規模言語モデル(LLM)は情報処理をリアクティブに行う能力に優れるが、仮説的未来を体系的に探索する能力に欠ける。提案するWiA-LLMは,LLMにプロアクティブな思考能力を持たせる新しいパラダイムである。複雑なマルチプレイヤーゲーム環境であるHonor of KingsにおけるWiA-LLMを検証する。
論文参考訳（メタデータ） (2025-09-05T04:05:27Z)
Can LLMs effectively provide game-theoretic-based scenarios for cybersecurity? [51.96049148869987]
大規模言語モデル(LLM)は、コンピュータシステムのセキュリティに新しいツールと課題を提供する。従来のゲーム理論フレームワークが,LLM駆動型アクターやボットの動作を効果的に捉えることができるかどうかを検討する。
論文参考訳（メタデータ） (2025-08-04T08:57:14Z)
How large language models judge and influence human cooperation [82.07571393247476]
我々は、最先端の言語モデルが協調行動をどのように判断するかを評価する。我々は、善良な相手との協力を評価する際、顕著な合意を守ります。モデル間の差異が協調の頻度に大きく影響を及ぼすことを示す。
論文参考訳（メタデータ） (2025-06-30T09:14:42Z)
Beyond Nash Equilibrium: Bounded Rationality of LLMs and humans in Strategic Decision-making [33.2843381902912]
大規模言語モデルは、戦略的意思決定設定にますます使われている。行動ゲーム理論研究に適応した実験パラダイムを用いて,LLMと人間を比較した。
論文参考訳（メタデータ） (2025-06-11T04:43:54Z)
SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文参考訳（メタデータ） (2025-06-01T08:36:51Z)
Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
Humans expect rationality and cooperation from LLM opponents in strategic games [0.0]
本研究は,人間の行動の差異に着目した最初の金銭的インセンティブを持つ実験室実験の結果である。この環境下では,LLMと対戦する被験者は人間よりも有意に少ない数を選択する。この変化は、主に戦略的推論能力の高い被験者によって引き起こされる。
論文参考訳（メタデータ） (2025-05-16T09:01:09Z)
Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Tasks [6.355245936740126]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクにおいて、人間の振る舞いをシミュレートしたり、自動化したりするためにますます使われている。我々は、不確実性の下での動的意思決定の基本的な側面である、探査・探索(E&E)トレードオフに焦点を当てる。推論は、ランダムな探索と指向的な探索の混在を特徴とする、より人間的な行動へとLSMをシフトさせる。
論文参考訳（メタデータ） (2025-05-15T02:09:18Z)
Exploring Persona-dependent LLM Alignment for the Moral Machine Experiment [23.7081830844157]
本研究では,道徳機械実験の様々な文脈における社会主導型意思決定と人的判断の整合性について検討した。 LLMのモラル決定は人格によって大きく異なり、人間よりも重要なタスクに対するモラル決定のシフトが大きいことが判明した。道徳的決定を伴うアプリケーションにこれらのモデルを配置する際の倫理的意味とリスクについて論じる。
論文参考訳（メタデータ） (2025-04-15T05:29:51Z)
Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。現在のLSMは、人間に対する信頼の欠如を示す。本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T06:22:19Z)
AI persuading AI vs AI persuading Humans: LLMs' Differential Effectiveness in Promoting Pro-Environmental Behavior [70.24245082578167]
環境保護行動(PEB)は気候変動に対処するために不可欠であるが、意識を意図や行動に変えることはいまだ明白である。大規模言語モデル(LLM)をPEBを促進するツールとして検討し,その影響を3,200人の参加者で比較した。人工的およびシミュレートされたエージェントは、介入後のEBスタンスに大きく影響し、ヒトの反応はほとんど変化しない。
論文参考訳（メタデータ） (2025-03-03T21:40:55Z)
Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games [7.504095239018173]
LLM(Large Language Model)ベースのエージェントは、現実のタスクを担い、人間の社会と関わるようになっている。本研究では,これらのAIエージェントの利他的行動に異なるペルソナと実験的フレーミングがどのような影響を及ぼすかを検討する。これらのAIエージェントは、人為的なデータに基づいて訓練されているにもかかわらず、人間の決定を正確に予測することはできない。
論文参考訳（メタデータ） (2024-10-28T17:47:41Z)
Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina [7.155982875107922]
研究は、大規模言語モデル(LLM)が、経済実験、調査、政治談話において、人間の行動と整合した人間的な推論を示す可能性があることを示唆している。このことから、LLMは社会科学研究において人間の代理やシミュレーションとして使用できると多くの人が提案している。 11～20のマネーリクエストゲームを用いてLCMの推論深度を評価する。
論文参考訳（メタデータ） (2024-10-25T14:46:07Z)
Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文参考訳（メタデータ） (2024-10-24T04:02:30Z)
Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game [3.8284679578037246]
We use the language logic game Who is Undercover?' as a experimental platform to propose the Multi-Perspective Team Tactic (MPTT) framework。 MPTTは、LLMの人間的な言語表現ロジック、多次元思考、複雑なシナリオにおける自己認識の育成を目的としている。予備的な結果は、MPTTとWIUが組み合わさって、LLMの認知能力を活用して、現実社会をシミュレートできる意思決定フレームワークを作成することを示している。
論文参考訳（メタデータ） (2024-10-20T06:41:31Z)
Measuring Free-Form Decision-Making Inconsistency of Language Models in Military Crisis Simulations [12.887834116390358]
BERTScoreに基づくメトリクスを用いて、応答の不整合を定量的に測定する。その結果,5つのLMは意味的差異を示す不整合のレベルを示すことがわかった。我々は、軍事的決定を通知するためにLMを使用する前に、さらなる検討を行うことを推奨する。
論文参考訳（メタデータ） (2024-10-17T04:12:17Z)
Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。文脈特性が人間の信頼行動に大きく影響していることが判明した。これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:00:05Z)
Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。 Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文参考訳（メタデータ） (2024-06-19T14:51:14Z)
ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。 Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文参考訳（メタデータ） (2023-11-06T16:03:46Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文参考訳（メタデータ） (2023-09-29T13:33:06Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。