論文の概要: DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates
- arxiv url: http://arxiv.org/abs/2510.25110v1
- Date: Wed, 29 Oct 2025 02:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.984241
- Title: DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates
- Title(参考訳): DEBATE: マルチエージェント・長期議論におけるロールプレイングLDMエージェントの大規模ベンチマーク
- Authors: Yun-Shiuan Chuang, Ruixuan Tu, Chengtao Dai, Smit Vasani, Binwei Yao, Michael Henry Tessler, Sijia Yang, Dhavan Shah, Robert Hawkins, Junjie Hu, Timothy T. Rogers,
- Abstract要約: マルチエージェントロールプレイングLLM間の相互作用の信頼性を評価するための,最初の大規模実証的ベンチマークであるDEBATEを紹介する。
我々は,シミュレーション群と真正群との重要な相違点を系統的に評価し,同定した。
- 参考スコア(独自算出の注目度): 10.609797175227644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately modeling opinion change through social interactions is crucial for addressing issues like misinformation and polarization. While role-playing large language models (LLMs) offer a promising way to simulate human-like interactions, existing research shows that single-agent alignment does not guarantee authentic multi-agent group dynamics. Current LLM role-play setups often produce unnatural dynamics (e.g., premature convergence), without an empirical benchmark to measure authentic human opinion trajectories. To bridge this gap, we introduce DEBATE, the first large-scale empirical benchmark explicitly designed to evaluate the authenticity of the interaction between multi-agent role-playing LLMs. DEBATE contains 29,417 messages from multi-round debate conversations among over 2,792 U.S.-based participants discussing 107 controversial topics, capturing both publicly-expressed messages and privately-reported opinions. Using DEBATE, we systematically evaluate and identify critical discrepancies between simulated and authentic group dynamics. We further demonstrate DEBATE's utility for aligning LLMs with human behavior through supervised fine-tuning, achieving improvements in surface-level metrics (e.g., ROUGE-L and message length) while highlighting limitations in deeper semantic alignment (e.g., semantic similarity). Our findings highlight both the potential and current limitations of role-playing LLM agents for realistically simulating human-like social dynamics.
- Abstract(参考訳): 社会的相互作用による意見の変化を正確にモデル化することは、誤情報や偏極といった問題に対処するために重要である。
ロールプレイング・大型言語モデル(LLM)は人間のような相互作用をシミュレートする有望な方法であるが、既存の研究では、単一エージェントアライメントが真のマルチエージェントグループダイナミクスを保証していないことが示されている。
現在のLLMロールプレイのセットアップは、真正な人間の意見軌跡を測定するための実証的なベンチマークを使わずに、不自然なダイナミクス(例えば、初期収束)をしばしば生み出す。
このギャップを埋めるために,マルチエージェントロールプレイングLLM間の相互作用の信頼性を評価するために設計された,最初の大規模経験的ベンチマークであるDEBATEを紹介する。
DEBATEには、米国在住の2,792人以上の参加者が107件の論議を交わし、公に発表されたメッセージと私的な意見の両方を捉えた、複数回にわたる討論から29,417件のメッセージが含まれている。
DEBATEを用いて、シミュレーション群と真正群との重要な相違点を体系的に評価し、同定する。
さらに、教師付き微調整によりLLMと人間の振舞いを協調するDEBATEの有用性を実証し、より深いセマンティックアライメント(例えば、意味的類似性)の限界を強調しながら、表面レベルのメトリクス(例えば、ROUGE-Lとメッセージ長)の改善を実現した。
我々の研究は、人間のような社会動態を現実的にシミュレートするためのロールプレイング LLM エージェントの可能性と現在の限界の両方を強調した。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - ClarifyMT-Bench: Benchmarking and Improving Multi-Turn Clarification for Conversational Large Language Models [32.099137908375546]
ClarifyMT-Benchは、大規模言語モデル(LLM)におけるマルチターン明確化のためのベンチマークである。
多様なあいまいさソースと相互作用パターンをキャプチャする6,120個のマルチターン対話を構築した。
textbfClarifyAgentは,認知,予測,追跡,計画に明確化を分解するエージェントアプローチである。
論文 参考訳(メタデータ) (2025-12-24T11:39:00Z) - MTOS: A LLM-Driven Multi-topic Opinion Simulation Framework for Exploring Echo Chamber Dynamics [4.784214920683191]
現実世界のネットワークでは、情報は複数の関連トピックにまたがり、意見の進化に挑戦する。
大規模言語モデル(LLM)に基づく既存の研究は、主に単一のトピックに焦点を当て、マルチトピック、クロスドメインのコンテキストにおける認知的伝達の捕捉を制限する。
一方、伝統的な数値モデルは、複雑な言語態度を離散的な値に単純化し、解釈可能性、行動整合性、複数のトピックを統合する能力に欠ける。
マルチトピック・オピニオン・シミュレーション(MTOS)を提案する。
論文 参考訳(メタデータ) (2025-10-14T11:59:47Z) - MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文 参考訳(メタデータ) (2025-10-07T06:27:42Z) - The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Disentangling Interaction and Bias Effects in Opinion Dynamics of Large Language Models [0.42481744176244507]
大きな言語モデルは、人間の意見のダイナミクスをシミュレートするためにますます使われています。
このようなバイアスを3つ解き、定量化するためのベイズ的枠組みを提案する。
このフレームワークを多段階の対話に適用すると、意見の軌跡はすぐに共有の魅力に収束する傾向があることが分かる。
論文 参考訳(メタデータ) (2025-09-08T16:26:45Z) - An Empirical Study of Group Conformity in Multi-Agent Systems [0.26999000177990923]
本研究では,Large Language Models (LLMs) が,5つの論点に関する議論を通じて世論を形成する方法について考察する。
2500以上の議論をシミュレートすることで、当初中立なエージェントが中心的な処分を課し、時間とともに特定のスタンスを採用するかを分析します。
論文 参考訳(メタデータ) (2025-06-02T05:22:29Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the
Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。
マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文 参考訳(メタデータ) (2024-02-28T12:04:05Z) - LLM Agents in Interaction: Measuring Personality Consistency and
Linguistic Alignment in Interacting Populations of Large Language Models [4.706971067968811]
簡単な変数誘導サンプリングアルゴリズムを用いて,大規模言語モデル (LLM) エージェントの2群集団を作成する。
人格検査を行ない、共同作業にエージェントを提出し、異なるプロファイルが会話相手に対して異なるレベルの人格整合性および言語的整合性を示すことを確認する。
論文 参考訳(メタデータ) (2024-02-05T11:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。