論文の概要: MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
- arxiv url: http://arxiv.org/abs/2408.12574v3
- Date: Sat, 21 Dec 2024 20:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:11.167365
- Title: MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
- Title(参考訳): MuMA-ToM:Multi-modal Multi-Agent Theory of Mind
- Authors: Haojun Shi, Suyu Ye, Xinyu Fang, Chuanyang Jin, Leyla Isik, Yen-Ling Kuo, Tianmin Shu,
- Abstract要約: マルチモーダルなマルチエージェント理論である MuMA-ToM を導入する。
本研究では,現実的な家庭環境における人々のマルチモーダル行動について,ビデオとテキストで記述する。
そして、他人の目標、信念、信念について質問する。
- 参考スコア(独自算出の注目度): 10.079620078670589
- License:
- Abstract: Understanding people's social interactions in complex real-world scenarios often relies on intricate mental reasoning. To truly understand how and why people interact with one another, we must infer the underlying mental states that give rise to the social interactions, i.e., Theory of Mind reasoning in multi-agent interactions. Additionally, social interactions are often multi-modal -- we can watch people's actions, hear their conversations, and/or read about their past behaviors. For AI systems to successfully and safely interact with people in real-world environments, they also need to understand people's mental states as well as their inferences about each other's mental states based on multi-modal information about their interactions. For this, we introduce MuMA-ToM, a Multi-modal Multi-Agent Theory of Mind benchmark. MuMA-ToM is the first multi-modal Theory of Mind benchmark that evaluates mental reasoning in embodied multi-agent interactions. In MuMA-ToM, we provide video and text descriptions of people's multi-modal behavior in realistic household environments. Based on the context, we then ask questions about people's goals, beliefs, and beliefs about others' goals. We validated MuMA-ToM in a human experiment and provided a human baseline. We also proposed a novel multi-modal, multi-agent ToM model, LIMP (Language model-based Inverse Multi-agent Planning). Our experimental results show that LIMP significantly outperforms state-of-the-art methods, including large multi-modal models (e.g., GPT-4o, Gemini-1.5 Pro) and a recent multi-modal ToM model, BIP-ALM.
- Abstract(参考訳): 複雑な現実世界のシナリオにおける人々の社会的相互作用を理解することは、しばしば複雑な精神的推論に依存する。
人々がどのように、なぜ互いに相互作用するのかを真に理解するためには、社会的な相互作用を引き起こす基礎となる精神状態、すなわちマルチエージェント相互作用における心の理論を推論する必要がある。
人々の行動を見たり、会話を聞いたり、過去の行動について読んだりできます。
AIシステムが現実世界の環境で人々とうまく安全に対話するためには、対話に関するマルチモーダル情報に基づいて、人々の精神状態だけでなく、互いの精神状態に関する推論も理解する必要がある。
そこで本研究では,マルチモーダルなマルチエージェント理論である MuMA-ToM について紹介する。
MuMA-ToMは、インボディード・マルチエージェント相互作用における精神的推論を評価する最初のマルチモーダル・オブ・マインドベンチマークである。
In MuMA-ToM, we provide video and text descriptions of people's multi-modal behavior in real household environment。
その文脈に基づいて、他人の目標、信念、信念について質問する。
人体実験で MuMA-ToM を検証し,人体ベースラインを提供した。
また,LIMP(Language model-based Inverse Multi-agent Planning)という新しいマルチモーダル・マルチエージェントToMモデルも提案した。
実験の結果,LIMPは大規模マルチモーダルモデル (GPT-4o, Gemini-1.5 Pro) や最近のマルチモーダルToMモデル (BIP-ALM) など,最先端の手法よりも優れていた。
関連論文リスト
- Explicit Modelling of Theory of Mind for Belief Prediction in Nonverbal Social Interactions [9.318796743761224]
マルチモーダル入力から人間の社会的相互作用における信念とそのダイナミクスを予測するための、心の理論(ToM)ニューラルネットワークであるMToMnetを提案する。
MToMnetはコンテキストキューを符号化し、個人固有のキュー(人間の視線とボディランゲージ)を、それぞれ個別のMindNetに統合する。
以上の結果から,MToMnetは既存の手法をはるかに上回り,同時にパラメータも大幅に少なくなることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T11:15:51Z) - Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:24:31Z) - OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models [17.042114879350788]
N-ToM(Neural Theory-of-Mind)は、他者の精神状態を理解し、追跡する能力を持つ機械である。
OpenToMは、より長く明確な物語、明示的な性格特性、キャラクタの意図によって引き起こされる行動でN-ToMを評価するための新しいベンチマークである。
身体世界における精神状態の特定の側面をモデル化する上では最先端のLSMが活躍するが、心理学世界におけるキャラクターの精神状態を追跡する際には不足することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T20:35:06Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction [0.0]
ビデオ記録では、34人の人間とアバターのインタラクションを録画し、ビデオの抜粋で完全な言語的マイクロアナリシスを行い、マルチモーダル行動やイベントの発生を全て記録した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
本稿では,会話分析(CA)や認知科学,心の理論(ToM)などの知識を,人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案する。
論文 参考訳(メタデータ) (2022-11-24T21:17:36Z) - Learning Triadic Belief Dynamics in Nonverbal Communication from Videos [81.42305032083716]
非言語コミュニケーションはエージェント間で豊富な社会情報を伝達することができる。
本論文では,エージェントの精神状態を表現,モデル化,学習,推論するために,異なる非言語的コミュニケーションキューを組み込んだ。
論文 参考訳(メタデータ) (2021-04-07T00:52:04Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。