論文の概要: The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation
- arxiv url: http://arxiv.org/abs/2510.01295v1
- Date: Wed, 01 Oct 2025 07:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.799036
- Title: The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation
- Title(参考訳): 社会実験室:多エージェントLCM評価のための心理学的枠組み
- Authors: Zarreen Reza,
- Abstract要約: マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
- 参考スコア(独自算出の注目度): 0.16921396880325779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) transition from static tools to autonomous agents, traditional evaluation benchmarks that measure performance on downstream tasks are becoming insufficient. These methods fail to capture the emergent social and cognitive dynamics that arise when agents communicate, persuade, and collaborate in interactive environments. To address this gap, we introduce a novel evaluation framework that uses multi-agent debate as a controlled "social laboratory" to discover and quantify these behaviors. In our framework, LLM-based agents, instantiated with distinct personas and incentives, deliberate on a wide range of challenging topics under the supervision of an LLM moderator. Our analysis, enabled by a new suite of psychometric and semantic metrics, reveals several key findings. Across hundreds of debates, we uncover a powerful and robust emergent tendency for agents to seek consensus, consistently reaching high semantic agreement ({\mu} > 0.88) even without explicit instruction and across sensitive topics. We show that assigned personas induce stable, measurable psychometric profiles, particularly in cognitive effort, and that the moderators persona can significantly alter debate outcomes by structuring the environment, a key finding for external AI alignment. This work provides a blueprint for a new class of dynamic, psychometrically grounded evaluation protocols designed for the agentic setting, offering a crucial methodology for understanding and shaping the social behaviors of the next generation of AI agents. We have released the code and results at https://github.com/znreza/multi-agent-LLM-eval-for-debate.
- Abstract(参考訳): 大規模言語モデル(LLM)が静的ツールから自律エージェントへ移行するにつれ、下流タスクのパフォーマンスを測定する従来の評価ベンチマークは不十分になりつつある。
これらの手法は、エージェントが対話的な環境でコミュニケーションし、説得し、協力する際に生じる、創発的な社会的・認知的ダイナミクスを捉えるのに失敗する。
このギャップに対処するために、我々はマルチエージェントの議論を制御された「社会実験室」として利用し、これらの行動を発見し定量化する新しい評価枠組みを導入する。
本フレームワークでは, LLMモデレーターの監督下で, 異なるペルソナとインセンティブを兼ね備えたLLMエージェントについて, 幅広い課題を意識的に検討した。
我々の分析は、新しい心理メトリクスとセマンティックメトリクスによって実現され、いくつかの重要な発見が明らかになった。
何百もの議論の中で、エージェントが合意を求め、明確な指示やセンシティブなトピックを伴わずに、常に高い意味的合意({\mu} > 0.88)に達するという、強力で堅牢な創発的な傾向が明らかになった。
特に認知活動において、割り当てられたペルソナは安定した、測定可能な心理測定プロファイルを導き、モデレーターペルソナは、外部AIアライメントの鍵となる環境を構築することで、議論の結果を著しく変えることができることを示す。
この研究は、エージェント設定のために設計された、動的で心理的に基礎付けられた新しい評価プロトコルの青写真を提供し、次世代のAIエージェントの社会的振る舞いを理解し形成するための重要な方法論を提供する。
コードと結果はhttps://github.com/znreza/multi-agent-LLM-eval-for-debate.comで公開しました。
関連論文リスト
- Agentic Reasoning for Large Language Models [122.81018455095999]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。
大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。
エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文 参考訳(メタデータ) (2026-01-18T18:58:23Z) - Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia [100.74015791021044]
大規模言語モデル(LLM)エージェントは、社会的相互作用の素晴らしい能力を実証している。
既存の評価手法は、これらの能力がいかに新しい社会的状況に一般化するかを測ることに失敗する。
我々は,NeurIPS 2024 Concordia Contestで,エージェントが相互利得を達成する能力について評価した経験的結果を示す。
論文 参考訳(メタデータ) (2025-12-03T00:11:05Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates [10.609797175227644]
マルチエージェントロールプレイングLLM間の相互作用の信頼性を評価するための,最初の大規模実証的ベンチマークであるDEBATEを紹介する。
我々は,シミュレーション群と真正群との重要な相違点を系統的に評価し,同定した。
論文 参考訳(メタデータ) (2025-10-29T02:21:10Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - LLMs Can't Handle Peer Pressure: Crumbling under Multi-Agent Social Interactions [35.71511502901056]
大規模言語モデル(LLM)は、コラボレーションインテリジェンスのコンポーネントとして、マルチエージェントシステムにますます多くデプロイされている。
LLMが過去の印象からの信頼をいかに形成し、誤報に抵抗し、相互作用中にピアインプットを統合するかを検討する。
KAIROSは、クイズコンテストをシミュレーションするベンチマークで、信頼性の異なるピアエージェントを提示する。
論文 参考訳(メタデータ) (2025-08-24T09:58:10Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Persona Inconstancy in Multi-Agent LLM Collaboration: Conformity, Confabulation, and Impersonation [16.82101507069166]
マルチエージェントAIシステムは、科学的および実践的な応用において、集合的な意思決定をシミュレートするために使用することができる。
我々は、相互協力や議論に携わるAIエージェントのアンサンブルについて、個人の反応やチャットの書き起こしを分析して検討する。
以上の結果から,複数エージェントによる議論が,多面的な視点を反映する集合的AI決定を支援することが示唆された。
論文 参考訳(メタデータ) (2024-05-06T21:20:35Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。