論文の概要: MMToM-QA: Multimodal Theory of Mind Question Answering
- arxiv url: http://arxiv.org/abs/2401.08743v2
- Date: Sat, 15 Jun 2024 10:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 06:54:55.222344
- Title: MMToM-QA: Multimodal Theory of Mind Question Answering
- Title(参考訳): MMToM-QA:マインド質問回答のマルチモーダル理論
- Authors: Chuanyang Jin, Yutong Wu, Jing Cao, Jiannan Xiang, Yen-Ling Kuo, Zhiting Hu, Tomer Ullman, Antonio Torralba, Joshua B. Tenenbaum, Tianmin Shu,
- Abstract要約: 心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
- 参考スコア(独自算出の注目度): 80.87550820953236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM), the ability to understand people's mental states, is an essential ingredient for developing machines with human-level social intelligence. Recent machine learning models, particularly large language models, seem to show some aspects of ToM understanding. However, existing ToM benchmarks use unimodal datasets - either video or text. Human ToM, on the other hand, is more than video or text understanding. People can flexibly reason about another person's mind based on conceptual representations (e.g., goals, beliefs, plans) extracted from any available data. To address this, we introduce a multimodal Theory of Mind question answering (MMToM-QA) benchmark. MMToM-QA comprehensively evaluates machine ToM both on multimodal data and on different kinds of unimodal data about a person's activity in a household environment. To engineer multimodal ToM capacity, we propose a novel method, BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models). BIP-ALM extracts unified representations from multimodal data and utilizes language models for scalable Bayesian inverse planning. We conducted a systematic comparison of human performance, BIP-ALM, and state-of-the-art models, including GPT-4. The experiments demonstrate that large language models and large multimodal models still lack robust ToM capacity. BIP-ALM, on the other hand, shows promising results, by leveraging the power of both model-based mental inference and language models.
- Abstract(参考訳): 人間の精神状態を理解する能力である心の理論(ToM)は、人間レベルの社会知能を持つ機械を開発する上で欠かせない要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
しかし、既存のToMベンチマークでは、ビデオまたはテキストのいずれでも、unimodalデータセットを使用している。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現(例えば、目標、信念、計画)に基づいて、他人の心について柔軟に推論することができる。
そこで本稿では,Multimodal Theory of Mind Question answering (MMToM-QA)ベンチマークを提案する。
MMToM-QAは、マルチモーダルデータと家庭環境における人の活動に関する様々な種類の単調なデータに基づいて、機械ToMを包括的に評価する。
マルチモーダルToMキャパシティを構築するために,BIP-ALM(Bayesian Inverse Planning Accelerated by Language Models)を提案する。
BIP-ALMはマルチモーダルデータから統一表現を抽出し、スケーラブルなベイズ逆計画に言語モデルを利用する。
我々は,GPT-4を含むヒトのパフォーマンス,BIP-ALM,最先端モデルの体系的比較を行った。
実験により、大規模言語モデルと大規模マルチモーダルモデルは依然として強力なToMキャパシティを欠いていることが示された。
一方、BIP-ALMは、モデルに基づくメンタル推論と言語モデルの両方のパワーを活用することで、有望な結果を示す。
関連論文リスト
- Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench [17.73279547506514]
マルチモーダル・ラージ・モデル・アンラーニングベンチマーク(MLLMU-Bench)は,マルチモーダル・マシン・アンラーニングの理解を深めるための新しいベンチマークである。
MLLMU-Benchは500の架空のプロファイルと153のプロフィールで構成され、各プロファイルは14以上のカスタマイズされた質問応答ペアで構成され、マルチモーダル(画像+テキスト)とユニモーダル(テキスト)の両方の観点から評価される。
意外なことに、我々の実験では、ユニモーダル・アンラーニングのアルゴリズムは生成タスクやクローズタスクに優れており、マルチモーダル・アンラーニングのアプローチはマルチモーダル入力による分類タスクにおいてより優れている。
論文 参考訳(メタデータ) (2024-10-29T15:07:23Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond [48.43910061720815]
マルチモーダル生成AIは、学術と産業の両方で注目を集めている。
理解と生成の両方に統一されたモデルを持つことは可能か?
論文 参考訳(メタデータ) (2024-09-23T13:16:09Z) - Explicit Modelling of Theory of Mind for Belief Prediction in Nonverbal Social Interactions [9.318796743761224]
マルチモーダル入力から人間の社会的相互作用における信念とそのダイナミクスを予測するための、心の理論(ToM)ニューラルネットワークであるMToMnetを提案する。
MToMnetはコンテキストキューを符号化し、個人固有のキュー(人間の視線とボディランゲージ)を、それぞれ個別のMindNetに統合する。
以上の結果から,MToMnetは既存の手法をはるかに上回り,同時にパラメータも大幅に少なくなることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T11:15:51Z) - Explore the Limits of Omni-modal Pretraining at Scale [21.82148059125346]
マルチモーダルコンテキスト(MiCo)という,スケーラブルな事前学習パラダイムを提案する。
MiCoは、事前トレーニングプロセスにおいて、モデルパラメータとともに、モダリティとデータの量をスケールアップすることができる。
我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。
論文 参考訳(メタデータ) (2024-06-13T17:59:53Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。