論文の概要: M3-BENCH: Process-Aware Evaluation of LLM Agents Social Behaviors in Mixed-Motive Games
- arxiv url: http://arxiv.org/abs/2601.08462v1
- Date: Tue, 13 Jan 2026 11:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.17521
- Title: M3-BENCH: Process-Aware Evaluation of LLM Agents Social Behaviors in Mixed-Motive Games
- Title(参考訳): M3-BENCH:混合運動ゲームにおけるLLMエージェントの社会的行動のプロセスアウェア評価
- Authors: Sixiong Xie, Zhuofan Shi, Haiyang Shen, Gang Huang, Yun Ma, Xiang Jing,
- Abstract要約: M3-Benchは、M3-Benchのマルチステージベンチマークである。
我々は、多次元の証拠を解釈可能な社会行動像に集約するために、ビッグファイブパーソナリティモデルと社会交換理論を統合する。
- 参考スコア(独自算出の注目度): 4.88323005571385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the capabilities of large language model (LLM) agents continue to advance, their advanced social behaviors, such as cooperation, deception, and collusion, call for systematic evaluation. However, existing benchmarks often emphasize a single capability dimension or rely solely on behavioral outcomes, overlooking rich process information from agents' decision reasoning and communicative interactions. To address this gap, we propose M3-Bench, a multi-stage benchmark for mixed-motive games, together with a process-aware evaluation framework that conducts synergistic analysis across three modules: BTA (Behavioral Trajectory Analysis), RPA (Reasoning Process Analysis), and CCA (Communication Content Analysis). Furthermore, we integrate the Big Five personality model and Social Exchange Theory to aggregate multi-dimensional evidence into interpretable social behavior portraits, thereby characterizing agents' personality traits and capability profiles beyond simple task scores or outcome-based metrics. Experimental results show that M3-Bench can reliably distinguish diverse social behavior competencies across models, and it reveals that some models achieve seemingly reasonable behavioral outcomes while exhibiting pronounced inconsistencies in their reasoning and communication.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの能力が向上し続ければ、協力、騙し、共謀といった先進的な社会的行動は体系的な評価を要求する。
しかし、既存のベンチマークでは、エージェントの決定的推論やコミュニケーションの相互作用から豊富なプロセス情報を見渡すことで、単一の能力の次元を強調したり、行動的な結果にのみ依存することが多い。
このギャップに対処するため、混合動機ゲームのためのマルチステージベンチマークであるM3-Benchと、BTA(Behavioral Trajectory Analysis)、RPA(Reasoning Process Analysis)、CAA(Communication Content Analysis)の3つのモジュール間の相乗的解析を行うプロセス認識評価フレームワークを提案する。
さらに、ビッグファイブ・パーソナリティモデルとソーシャル・エクスチェンジ理論を統合し、多次元の証拠を解釈可能な社会的行動像に集約することで、エージェントの性格特性や能力プロファイルを単純なタスクスコアや結果に基づくメトリクスを超えて特徴づける。
実験結果から,M3-Benchはモデル間での多様な社会的行動能力を確実に区別できることが示された。
関連論文リスト
- Do as We Do, Not as You Think: the Conformity of Large Language Models [46.23852835759767]
本稿では,大規模言語モデル(LLM)による協調型AIシステムにおける適合性について述べる。
適合性の存在、適合性に影響を与える要因、潜在的な緩和戦略の3つの側面に焦点を当てる。
本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。
論文 参考訳(メタデータ) (2025-01-23T04:50:03Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。