論文の概要: Human vs. Machine: Language Models and Wargames
- arxiv url: http://arxiv.org/abs/2403.03407v1
- Date: Wed, 6 Mar 2024 02:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:22:42.887106
- Title: Human vs. Machine: Language Models and Wargames
- Title(参考訳): Human vs. Machine: 言語モデルとウォーゲーム
- Authors: Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro,
Jacquelyn Schneider, Harold Trinkunas
- Abstract要約: 我々は107人の国家安全保障の専門家によるウォーゲーム実験を使用して、架空の米国と中国のシナリオにおける危機エスカレーションを調査します。
LLMと人間の反応には相当な一致があるが,戦時ゲームにおけるシミュレーションゲームと人間プレイヤーの定量的,質的な差異も有意である。
- 参考スコア(独自算出の注目度): 1.7068454058822347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wargames have a long history in the development of military strategy and the
response of nations to threats or attacks. The advent of artificial
intelligence (AI) promises better decision-making and increased military
effectiveness. However, there is still debate about how AI systems, especially
large language models (LLMs), behave as compared to humans. To this end, we use
a wargame experiment with 107 national security expert human players designed
to look at crisis escalation in a fictional US-China scenario and compare human
players to LLM-simulated responses. We find considerable agreement in the LLM
and human responses but also significant quantitative and qualitative
differences between simulated and human players in the wargame, motivating
caution to policymakers before handing over autonomy or following AI-based
strategy recommendations.
- Abstract(参考訳): 戦争は軍事戦略の発展と国家の脅威や攻撃に対する対応において長い歴史を持っている。
人工知能(AI)の出現は、より良い意思決定と軍事効果を約束する。
しかし、AIシステム、特に大きな言語モデル(LLM)がどのように振る舞うかについては、人間と比べて議論がある。
この目的のために,米国と中国の架空のシナリオにおける危機エスカレーションを考慮し,人間のプレイヤーとLDMシミュレーションされた反応を比較するように設計された107人の国家安全保障専門家によるウォーゲーム実験を使用する。
llmと人間の反応には相当な一致が見られるが、戦争におけるシミュレートされたプレイヤーと人間のプレイヤーの間の有意な量的・質的な違いは、自律性やaiベースの戦略推奨に従う前に政策立案者に注意を促している。
関連論文リスト
- Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games [7.504095239018173]
LLM(Large Language Model)ベースのエージェントは、現実のタスクを担い、人間の社会と関わるようになっている。
本研究では,これらのAIエージェントの利他的行動に異なるペルソナと実験的フレーミングがどのような影響を及ぼすかを検討する。
これらのAIエージェントは、人為的なデータに基づいて訓練されているにもかかわらず、人間の決定を正確に予測することはできない。
論文 参考訳(メタデータ) (2024-10-28T17:47:41Z) - Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina [7.155982875107922]
研究は、大規模言語モデル(LLM)が、経済実験、調査、政治談話において、人間の行動と整合した人間的な推論を示す可能性があることを示唆している。
このことから、LLMは社会科学研究において人間の代理やシミュレーションとして使用できると多くの人が提案している。
11~20のマネーリクエストゲームを用いてLCMの推論深度を評価する。
論文 参考訳(メタデータ) (2024-10-25T14:46:07Z) - Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game [3.8284679578037246]
We use the language logic game Who is Undercover?' as a experimental platform to propose the Multi-Perspective Team Tactic (MPTT) framework。
MPTTは、LLMの人間的な言語表現ロジック、多次元思考、複雑なシナリオにおける自己認識の育成を目的としている。
予備的な結果は、MPTTとWIUが組み合わさって、LLMの認知能力を活用して、現実社会をシミュレートできる意思決定フレームワークを作成することを示している。
論文 参考訳(メタデータ) (2024-10-20T06:41:31Z) - Measuring Free-Form Decision-Making Inconsistency of Language Models in Military Crisis Simulations [12.887834116390358]
BERTScoreに基づくメトリクスを用いて、応答の不整合を定量的に測定する。
その結果,5つのLMは意味的差異を示す不整合のレベルを示すことがわかった。
我々は、軍事的決定を通知するためにLMを使用する前に、さらなる検討を行うことを推奨する。
論文 参考訳(メタデータ) (2024-10-17T04:12:17Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。