論文の概要: DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates
- arxiv url: http://arxiv.org/abs/2510.25110v1
- Date: Wed, 29 Oct 2025 02:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.984241
- Title: DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates
- Title(参考訳): DEBATE: マルチエージェント・長期議論におけるロールプレイングLDMエージェントの大規模ベンチマーク
- Authors: Yun-Shiuan Chuang, Ruixuan Tu, Chengtao Dai, Smit Vasani, Binwei Yao, Michael Henry Tessler, Sijia Yang, Dhavan Shah, Robert Hawkins, Junjie Hu, Timothy T. Rogers,
- Abstract要約: マルチエージェントロールプレイングLLM間の相互作用の信頼性を評価するための,最初の大規模実証的ベンチマークであるDEBATEを紹介する。
我々は,シミュレーション群と真正群との重要な相違点を系統的に評価し,同定した。
- 参考スコア(独自算出の注目度): 10.609797175227644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately modeling opinion change through social interactions is crucial for addressing issues like misinformation and polarization. While role-playing large language models (LLMs) offer a promising way to simulate human-like interactions, existing research shows that single-agent alignment does not guarantee authentic multi-agent group dynamics. Current LLM role-play setups often produce unnatural dynamics (e.g., premature convergence), without an empirical benchmark to measure authentic human opinion trajectories. To bridge this gap, we introduce DEBATE, the first large-scale empirical benchmark explicitly designed to evaluate the authenticity of the interaction between multi-agent role-playing LLMs. DEBATE contains 29,417 messages from multi-round debate conversations among over 2,792 U.S.-based participants discussing 107 controversial topics, capturing both publicly-expressed messages and privately-reported opinions. Using DEBATE, we systematically evaluate and identify critical discrepancies between simulated and authentic group dynamics. We further demonstrate DEBATE's utility for aligning LLMs with human behavior through supervised fine-tuning, achieving improvements in surface-level metrics (e.g., ROUGE-L and message length) while highlighting limitations in deeper semantic alignment (e.g., semantic similarity). Our findings highlight both the potential and current limitations of role-playing LLM agents for realistically simulating human-like social dynamics.
- Abstract(参考訳): 社会的相互作用による意見の変化を正確にモデル化することは、誤情報や偏極といった問題に対処するために重要である。
ロールプレイング・大型言語モデル(LLM)は人間のような相互作用をシミュレートする有望な方法であるが、既存の研究では、単一エージェントアライメントが真のマルチエージェントグループダイナミクスを保証していないことが示されている。
現在のLLMロールプレイのセットアップは、真正な人間の意見軌跡を測定するための実証的なベンチマークを使わずに、不自然なダイナミクス(例えば、初期収束)をしばしば生み出す。
このギャップを埋めるために,マルチエージェントロールプレイングLLM間の相互作用の信頼性を評価するために設計された,最初の大規模経験的ベンチマークであるDEBATEを紹介する。
DEBATEには、米国在住の2,792人以上の参加者が107件の論議を交わし、公に発表されたメッセージと私的な意見の両方を捉えた、複数回にわたる討論から29,417件のメッセージが含まれている。
DEBATEを用いて、シミュレーション群と真正群との重要な相違点を体系的に評価し、同定する。
さらに、教師付き微調整によりLLMと人間の振舞いを協調するDEBATEの有用性を実証し、より深いセマンティックアライメント(例えば、意味的類似性)の限界を強調しながら、表面レベルのメトリクス(例えば、ROUGE-Lとメッセージ長)の改善を実現した。
我々の研究は、人間のような社会動態を現実的にシミュレートするためのロールプレイング LLM エージェントの可能性と現在の限界の両方を強調した。
関連論文リスト
- MTOS: A LLM-Driven Multi-topic Opinion Simulation Framework for Exploring Echo Chamber Dynamics [4.784214920683191]
現実世界のネットワークでは、情報は複数の関連トピックにまたがり、意見の進化に挑戦する。
大規模言語モデル(LLM)に基づく既存の研究は、主に単一のトピックに焦点を当て、マルチトピック、クロスドメインのコンテキストにおける認知的伝達の捕捉を制限する。
一方、伝統的な数値モデルは、複雑な言語態度を離散的な値に単純化し、解釈可能性、行動整合性、複数のトピックを統合する能力に欠ける。
マルチトピック・オピニオン・シミュレーション(MTOS)を提案する。
論文 参考訳(メタデータ) (2025-10-14T11:59:47Z) - MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文 参考訳(メタデータ) (2025-10-07T06:27:42Z) - The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - Disentangling Interaction and Bias Effects in Opinion Dynamics of Large Language Models [0.42481744176244507]
大きな言語モデルは、人間の意見のダイナミクスをシミュレートするためにますます使われています。
このようなバイアスを3つ解き、定量化するためのベイズ的枠組みを提案する。
このフレームワークを多段階の対話に適用すると、意見の軌跡はすぐに共有の魅力に収束する傾向があることが分かる。
論文 参考訳(メタデータ) (2025-09-08T16:26:45Z) - An Empirical Study of Group Conformity in Multi-Agent Systems [0.26999000177990923]
本研究では,Large Language Models (LLMs) が,5つの論点に関する議論を通じて世論を形成する方法について考察する。
2500以上の議論をシミュレートすることで、当初中立なエージェントが中心的な処分を課し、時間とともに特定のスタンスを採用するかを分析します。
論文 参考訳(メタデータ) (2025-06-02T05:22:29Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - LLM Agents in Interaction: Measuring Personality Consistency and
Linguistic Alignment in Interacting Populations of Large Language Models [4.706971067968811]
簡単な変数誘導サンプリングアルゴリズムを用いて,大規模言語モデル (LLM) エージェントの2群集団を作成する。
人格検査を行ない、共同作業にエージェントを提出し、異なるプロファイルが会話相手に対して異なるレベルの人格整合性および言語的整合性を示すことを確認する。
論文 参考訳(メタデータ) (2024-02-05T11:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。