論文の概要: Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models
- arxiv url: http://arxiv.org/abs/2406.13763v1
- Date: Wed, 19 Jun 2024 18:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:35:22.120591
- Title: Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models
- Title(参考訳): 心の目の理論を通して:マルチモーダルビデオ大言語モデルによる心を読む
- Authors: Zhawnen Chen, Tianchun Wang, Yizhou Wang, Michal Kosinski, Xiang Zhang, Yun Fu, Sheng Li,
- Abstract要約: ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
- 参考スコア(独自算出の注目度): 52.894048516550065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can large multimodal models have a human-like ability for emotional and social reasoning, and if so, how does it work? Recent research has discovered emergent theory-of-mind (ToM) reasoning capabilities in large language models (LLMs). LLMs can reason about people's mental states by solving various text-based ToM tasks that ask questions about the actors' ToM (e.g., human belief, desire, intention). However, human reasoning in the wild is often grounded in dynamic scenes across time. Thus, we consider videos a new medium for examining spatio-temporal ToM reasoning ability. Specifically, we ask explicit probing questions about videos with abundant social and emotional reasoning content. We develop a pipeline for multimodal LLM for ToM reasoning using video and text. We also enable explicit ToM reasoning by retrieving key frames for answering a ToM question, which reveals how multimodal LLMs reason about ToM.
- Abstract(参考訳): 大規模なマルチモーダルモデルは、感情的、社会的推論に人間のような能力を持ち、もしそうなら、どのように機能するのか?
近年の研究では、大規模言語モデル(LLM)における創発的理論(ToM)推論能力が発見されている。
LLMは、アクターのToM(例えば、人間の信念、欲求、意図)について質問するテキストベースのToMタスクを解くことで、人々のメンタルステートを推論することができる。
しかし、野生での人間の推論は、時を経る動的な場面でしばしば基礎を置いている。
そこで,ビデオは時空間ToM推論能力を調べるための新しい媒体であると考えている。
具体的には、社会的、感情的な推論コンテンツが豊富にあるビデオについて、明示的な質問を行う。
ビデオとテキストを用いたToM推論のためのマルチモーダルLLMパイプラインを開発した。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にし、マルチモーダルLLMがToMについてどのように推論するかを明らかにする。
関連論文リスト
- TimeToM: Temporal Space is the Key to Unlocking the Door of Large Language Models' Theory-of-Mind [18.258876784733733]
時間空間を構築し,それを基盤として大規模言語モデルのToM能力を向上させるTimeToMを提案する。
本研究では,時間空間における文字間の信念伝達を考慮し,文字の高次信念を他の文字の1次信念に変換する新しいツール・ビリーフ・ソルバを設計する。
論文 参考訳(メタデータ) (2024-07-01T16:50:49Z) - Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses [11.121931601655174]
心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
論文 参考訳(メタデータ) (2024-06-09T05:57:59Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル (LLM) のための可視化・オブ・ソート (VoT) を提案する。
VoTは、LLMの空間的推論を、それらの推論トレースを可視化することによって引き起こし、その後の推論ステップを導く。
自然言語ナビゲーションや視覚ナビゲーション,2次元グリッドの世界における視覚的タイリングなど,マルチホップ空間推論タスクにVoTを使用している。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z) - Premise-based Multimodal Reasoning: A Human-like Cognitive Process [28.38581274528838]
前提に基づくマルチモーダル推論(PMR)は、背景情報の深い理解を確立した後、参加モデルに推論を要求します。
提案されたPMRは、人間のような深い推論に光を当てるのに役立つと信じています。
論文 参考訳(メタデータ) (2021-05-15T03:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。