論文の概要: MOTOR-Bench: A Real-world Dataset and Multi-agent Framework for Zero-shot Human Mental State Understanding
- arxiv url: http://arxiv.org/abs/2605.09703v1
- Date: Sun, 10 May 2026 18:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.381688
- Title: MOTOR-Bench: A Real-world Dataset and Multi-agent Framework for Zero-shot Human Mental State Understanding
- Title(参考訳): MOTOR-Bench: ゼロショット人間のメンタル状態理解のための実世界のデータセットとマルチエージェントフレームワーク
- Authors: Xiaoyu Yuan, Niklas Heikkala, Tiina Törmänen, Hanna Järvenoja, Guoying Zhao, Haoyu Chen,
- Abstract要約: 我々はMOTOR-MASというマルチエージェント・フレームワークを提案する。
構成されたエージェント調整機構を通じて複数のエージェントを調整し、明示的な行動、内的認知、心理的感情を推測する。
実験の結果,MOTOR-MASは,行動,認知,感情の3つのラベルに対して,マクロF1スコアで15.93ポイント,内部認知予測では10.2ポイント,一般マルチエージェントベンチマークでは10.2ポイントにおいて,最高のシングルモデルベンチマークよりも優れていた。
- 参考スコア(独自算出の注目度): 17.083382686596494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human mental states from natural behavior is crucial for intelligent systems in the real world. However, most current research focuses on predicting isolated mental state labels, lacking structured annotations of complex interpersonal interactions. To support structured analysis, we introduce MOTOR-Bench, a carefully-designed benchmark with a real-world dataset MOTOR-dataset, containing 1,440 multimodal video clips in collaborative learning scenarios, reflecting key real-world data challenges including natural class imbalance, visual noise, and domain-specific language. Each sample is labeled by educational experts based on self-regulated learning theory. We further evaluate several state-of-the-art multimodal large language models and multi-agent systems in a zero-shot setting on our MOTOR-Bench. However, their performance on this task remains limited, suggesting that existing methods still struggle with structured reasoning from observable behavior to deeper mental states. To address this challenge, we propose a reasoning multi-agent framework, named MOTOR-MAS. It coordinates multiple agents through a structured agent coordination mechanism to infer explicit behaviors, internal cognitions, and psychological emotions. Experimental results show that our MOTOR-MAS outperforms the best single-model benchmark by 15.93 points in Macro-F1 scores for the three labels of behavior, cognition, and emotion, and outperforms the general multi-agent benchmark by 10.2 points in internal cognition prediction.
- Abstract(参考訳): 人間の精神状態を自然な行動から理解することは、現実世界の知的なシステムにとって不可欠である。
しかし、近年のほとんどの研究は、複雑な対人相互作用の構造化アノテーションが欠如している、孤立した精神状態ラベルの予測に焦点を当てている。
構造化解析をサポートするために,MOTOR-Benchは実世界のデータセットであるMOTOR-datasetで慎重に設計されたベンチマークであり,協調学習シナリオにおける1,440のマルチモーダルビデオクリップを含み,自然クラス不均衡,視覚ノイズ,ドメイン固有言語などの重要な実世界のデータ課題を反映している。
各サンプルは、自己規制学習理論に基づく教育専門家によってラベル付けされる。
さらに,MOTOR-Bench上のゼロショット設定において,最先端のマルチモーダル言語モデルとマルチエージェントシステムについて検討した。
しかし、この課題における彼らのパフォーマンスは依然として限られており、既存の手法は観測可能な行動から深い精神状態への構造化推論に苦慮している。
この課題に対処するため,MOTOR-MASというマルチエージェント・フレームワークを提案する。
構成されたエージェント調整機構を通じて複数のエージェントを調整し、明示的な行動、内的認知、心理的感情を推測する。
実験の結果,MOTOR-MASは,行動,認知,感情の3つのラベルに対して,マクロF1スコアで15.93ポイント,内部認知予測では10.2ポイント,一般マルチエージェントベンチマークでは10.2ポイントにおいて,最高のシングルモデルベンチマークよりも優れていた。
関連論文リスト
- Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [41.188841829937466]
MoMentS (Multimodal Mental States) は、社会的にインテリジェントなマルチモーダルエージェントを構築するためのベンチマークである。
MoMentSには、7つの異なるToMカテゴリにまたがる2300以上の多重選択質問が含まれている。
いくつかのMLLMを評価し、ビジョンは一般的に性能を改善するが、モデルがそれを効果的に統合するのに苦戦していることを発見した。
論文 参考訳(メタデータ) (2025-07-06T15:06:30Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion [20.545058017790428]
模倣学習は、エンボディエージェントでアジャイルの移動を可能にするための大きな約束を持っています。
本稿では,ILアルゴリズムの厳密な評価と比較を容易にするための新しいベンチマークを提案する。
このベンチマークは四足歩行、二足歩行、筋骨格人体モデルを含む多様な環境を含む。
論文 参考訳(メタデータ) (2023-11-04T19:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。