論文の概要: M3-BENCH: Process-Aware Evaluation of LLM Agents Social Behaviors in Mixed-Motive Games
- arxiv url: http://arxiv.org/abs/2601.08462v1
- Date: Tue, 13 Jan 2026 11:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.17521
- Title: M3-BENCH: Process-Aware Evaluation of LLM Agents Social Behaviors in Mixed-Motive Games
- Title(参考訳): M3-BENCH:混合運動ゲームにおけるLLMエージェントの社会的行動のプロセスアウェア評価
- Authors: Sixiong Xie, Zhuofan Shi, Haiyang Shen, Gang Huang, Yun Ma, Xiang Jing,
- Abstract要約: M3-Benchは、M3-Benchのマルチステージベンチマークである。
我々は、多次元の証拠を解釈可能な社会行動像に集約するために、ビッグファイブパーソナリティモデルと社会交換理論を統合する。
- 参考スコア(独自算出の注目度): 4.88323005571385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the capabilities of large language model (LLM) agents continue to advance, their advanced social behaviors, such as cooperation, deception, and collusion, call for systematic evaluation. However, existing benchmarks often emphasize a single capability dimension or rely solely on behavioral outcomes, overlooking rich process information from agents' decision reasoning and communicative interactions. To address this gap, we propose M3-Bench, a multi-stage benchmark for mixed-motive games, together with a process-aware evaluation framework that conducts synergistic analysis across three modules: BTA (Behavioral Trajectory Analysis), RPA (Reasoning Process Analysis), and CCA (Communication Content Analysis). Furthermore, we integrate the Big Five personality model and Social Exchange Theory to aggregate multi-dimensional evidence into interpretable social behavior portraits, thereby characterizing agents' personality traits and capability profiles beyond simple task scores or outcome-based metrics. Experimental results show that M3-Bench can reliably distinguish diverse social behavior competencies across models, and it reveals that some models achieve seemingly reasonable behavioral outcomes while exhibiting pronounced inconsistencies in their reasoning and communication.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの能力が向上し続ければ、協力、騙し、共謀といった先進的な社会的行動は体系的な評価を要求する。
しかし、既存のベンチマークでは、エージェントの決定的推論やコミュニケーションの相互作用から豊富なプロセス情報を見渡すことで、単一の能力の次元を強調したり、行動的な結果にのみ依存することが多い。
このギャップに対処するため、混合動機ゲームのためのマルチステージベンチマークであるM3-Benchと、BTA(Behavioral Trajectory Analysis)、RPA(Reasoning Process Analysis)、CAA(Communication Content Analysis)の3つのモジュール間の相乗的解析を行うプロセス認識評価フレームワークを提案する。
さらに、ビッグファイブ・パーソナリティモデルとソーシャル・エクスチェンジ理論を統合し、多次元の証拠を解釈可能な社会的行動像に集約することで、エージェントの性格特性や能力プロファイルを単純なタスクスコアや結果に基づくメトリクスを超えて特徴づける。
実験結果から,M3-Benchはモデル間での多様な社会的行動能力を確実に区別できることが示された。
関連論文リスト
- Projective Psychological Assessment of Large Multimodal Models Using Thematic Apperception Tests [5.119837168333715]
本研究では,LMM(Large Multimodal Models)の性格特性が,非言語的モダリティによって評価できるかどうかを検討する。
評価者は、TAT応答を理解し分析する優れた能力を示した。
論文 参考訳(メタデータ) (2026-02-19T06:08:33Z) - Agentic Reasoning for Large Language Models [122.81018455095999]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。
大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。
エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文 参考訳(メタデータ) (2026-01-18T18:58:23Z) - Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning [8.01259760303241]
部分的に完了した推論連鎖が他のモデルによって確実に継続できるかどうかを検討する。
トークンレベルのログ確率しきい値を使用して、ベースラインモデルから推論を早期、中、後期に切り離します。
我々の研究は、推論モデルの新たな行動特性としてのインターチェンジビリティを示唆している。
論文 参考訳(メタデータ) (2025-12-16T02:56:44Z) - TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - LLMs Can't Handle Peer Pressure: Crumbling under Multi-Agent Social Interactions [35.71511502901056]
大規模言語モデル(LLM)は、コラボレーションインテリジェンスのコンポーネントとして、マルチエージェントシステムにますます多くデプロイされている。
LLMが過去の印象からの信頼をいかに形成し、誤報に抵抗し、相互作用中にピアインプットを統合するかを検討する。
KAIROSは、クイズコンテストをシミュレーションするベンチマークで、信頼性の異なるピアエージェントを提示する。
論文 参考訳(メタデータ) (2025-08-24T09:58:10Z) - Simulating Generative Social Agents via Theory-Informed Workflow Design [11.992123170134185]
社会エージェントのための体系的設計プロセスを提供する理論インフォームド・フレームワークを提案する。
私たちのフレームワークは、社会的認知理論の原則に基づいており、モチベーション、行動計画、学習という3つの重要なモジュールを導入しています。
実験により, 複雑な条件下での現実的な人間の行動パターンを再現できることが実証された。
論文 参考訳(メタデータ) (2025-08-12T08:14:48Z) - Do as We Do, Not as You Think: the Conformity of Large Language Models [46.23852835759767]
本稿では,大規模言語モデル(LLM)による協調型AIシステムにおける適合性について述べる。
適合性の存在、適合性に影響を与える要因、潜在的な緩和戦略の3つの側面に焦点を当てる。
本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。
論文 参考訳(メタデータ) (2025-01-23T04:50:03Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。