論文の概要: LLMs as Policy-Agnostic Teammates: A Case Study in Human Proxy Design for Heterogeneous Agent Teams
- arxiv url: http://arxiv.org/abs/2510.06151v1
- Date: Tue, 07 Oct 2025 17:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.383209
- Title: LLMs as Policy-Agnostic Teammates: A Case Study in Human Proxy Design for Heterogeneous Agent Teams
- Title(参考訳): LLMs as Policy-Agnostic Teammates:A Case Study in Human Proxy Design for Heterogeneous Agent Teams
- Authors: Aju Ani Justus, Chris Baber,
- Abstract要約: Heterogeneous-Agent Teamsをモデル化する上で重要な課題は、ポリシーがアクセスできない、あるいは人間のような非定常的なチームメイトと協力するためのトレーニングエージェントである。
従来のアプローチは、スケーラビリティを制限する高価なヒューマン・イン・ザ・ループデータに依存していた。
本研究では,政策に依存しない人間プロキシとしてLarge Language Models (LLMs) を用いて,人間の意思決定を模倣した合成データを生成する。
- 参考スコア(独自算出の注目度): 0.7734726150561086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A critical challenge in modelling Heterogeneous-Agent Teams is training agents to collaborate with teammates whose policies are inaccessible or non-stationary, such as humans. Traditional approaches rely on expensive human-in-the-loop data, which limits scalability. We propose using Large Language Models (LLMs) as policy-agnostic human proxies to generate synthetic data that mimics human decision-making. To evaluate this, we conduct three experiments in a grid-world capture game inspired by Stag Hunt, a game theory paradigm that balances risk and reward. In Experiment 1, we compare decisions from 30 human participants and 2 expert judges with outputs from LLaMA 3.1 and Mixtral 8x22B models. LLMs, prompted with game-state observations and reward structures, align more closely with experts than participants, demonstrating consistency in applying underlying decision criteria. Experiment 2 modifies prompts to induce risk-sensitive strategies (e.g. "be risk averse"). LLM outputs mirror human participants' variability, shifting between risk-averse and risk-seeking behaviours. Finally, Experiment 3 tests LLMs in a dynamic grid-world where the LLM agents generate movement actions. LLMs produce trajectories resembling human participants' paths. While LLMs cannot yet fully replicate human adaptability, their prompt-guided diversity offers a scalable foundation for simulating policy-agnostic teammates.
- Abstract(参考訳): Heterogeneous-Agent Teamsをモデル化する上で重要な課題は、ポリシーがアクセスできない、あるいは人間のような非定常的なチームメイトと協力するためのトレーニングエージェントである。
従来のアプローチは、スケーラビリティを制限する高価なヒューマン・イン・ザ・ループデータに依存していた。
本研究では,政策に依存しない人間プロキシとしてLarge Language Models (LLMs) を用いて,人間の意思決定を模倣した合成データを生成する。
これを評価するために,リスクと報酬のバランスをとるゲーム理論パラダイムであるStag Huntに触発されたグリッドワールドキャプチャゲームで3つの実験を行った。
実験1では、30人の被験者と2人の専門家の審査員による決定を、LLaMA 3.1とMixtral 8x22Bモデルの出力と比較した。
LLMは、ゲーム状態の観察と報酬構造によって誘導され、参加者よりも専門家とより緊密に連携し、基礎となる決定基準を適用する上で一貫性を示す。
実験2では、リスクに敏感な戦略("be risk averse")を誘導するプロンプトを修正します。
LLMは、人間の参加者の多様性を反映し、リスク回避行動とリスク探究行動の間でシフトする。
最後に、実験3では、LLMエージェントが動作アクションを生成する動的グリッドワールドでLSMをテストする。
LLMは、ヒトの参加者の経路に似た軌道を生成する。
LLMは人間の適応性を完璧に再現することはできないが、その迅速な誘導された多様性は、ポリシーに依存しないチームメイトをシミュレートするためのスケーラブルな基盤を提供する。
関連論文リスト
- Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Experiments [5.1382713576243955]
大規模言語モデル(LLM)は、シーケンシャルな意思決定設定で人間の振る舞いをシミュレートしたり、自動化したりするために、ますます使われている。
我々は、不確実性の下での動的意思決定の基本的な側面である、探査・探索(E&E)トレードオフに焦点を当てる。
LLMにおける思考を可能にすることは、ランダムな探索と指向的な探索の混合によって特徴付けられる、より人間的な行動へと行動を変える。
論文 参考訳(メタデータ) (2025-05-15T02:09:18Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations [1.6108153271585284]
大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と異なる振る舞いを示す。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
論文 参考訳(メタデータ) (2024-03-06T02:23:32Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。