論文の概要: Mind the Motions: Benchmarking Theory-of-Mind in Everyday Body Language
- arxiv url: http://arxiv.org/abs/2511.15887v1
- Date: Wed, 19 Nov 2025 21:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.380849
- Title: Mind the Motions: Benchmarking Theory-of-Mind in Everyday Body Language
- Title(参考訳): Mind the Motions: 毎日のボディーランゲージにおけるミンド理論のベンチマーク
- Authors: Seungbeen Lee, Jinhong Jeong, Donghyun Kim, Yejin Son, Youngjae Yu,
- Abstract要約: Motion2Mindは、NVCを解釈する機械のToM能力を評価するためのフレームワークである。
222種類の非言語的手がかりと397のマインドステートを含んでいる。
現在のAIシステムは、NVCの解釈にかなり苦労している。
- 参考スコア(独自算出の注目度): 22.8903399761772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our ability to interpret others' mental states through nonverbal cues (NVCs) is fundamental to our survival and social cohesion. While existing Theory of Mind (ToM) benchmarks have primarily focused on false-belief tasks and reasoning with asymmetric information, they overlook other mental states beyond belief and the rich tapestry of human nonverbal communication. We present Motion2Mind, a framework for evaluating the ToM capabilities of machines in interpreting NVCs. Leveraging an expert-curated body-language reference as a proxy knowledge base, we build Motion2Mind, a carefully curated video dataset with fine-grained nonverbal cue annotations paired with manually verified psychological interpretations. It encompasses 222 types of nonverbal cues and 397 mind states. Our evaluation reveals that current AI systems struggle significantly with NVC interpretation, exhibiting not only a substantial performance gap in Detection, as well as patterns of over-interpretation in Explanation compared to human annotators.
- Abstract(参考訳): 非言語的手がかり(NVC)を通じて他者の精神状態を解釈する能力は、生存と社会的結束に不可欠である。
既存の心の理論(ToM)ベンチマークは、主に不信任課題や非対称的な情報による推論に焦点を当てているが、彼らは信念を超えた他の精神状態や、人間の非言語コミュニケーションの豊富なタペストリーを見落としている。
我々は,NVCの解釈におけるマシンのToM能力を評価するフレームワークであるMotion2Mindを提案する。
専門家がキュレートしたボディランゲージ参照をプロキシナレッジベースとして活用することで、手作業で検証された心理的解釈と組み合わせた細粒度の非言語的キューアノテーションを備えた、慎重にキュレートされたビデオデータセットであるMotion2Mindを構築します。
222種類の非言語的手がかりと397のマインドステートを含んでいる。
我々の評価では、現在のAIシステムは、検出における実質的なパフォーマンスギャップだけでなく、人間のアノテータと比較して説明の過剰解釈のパターンを示すため、NVCの解釈にかなり苦労していることが示されている。
関連論文リスト
- SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。
私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文 参考訳(メタデータ) (2025-07-25T15:12:06Z) - MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models [27.930709161679424]
非言語的なソーシャルインタラクションに富んだ、新しいデータソースをタップします。
我々は、YouTubeから8時間分のビデオクリップをソーシングすることで得られる、MimeQAという新しいデータセットをコントリビュートする。
最新のビデオ大言語モデル(vLLMs)を評価し,20~30%の精度で精度が低く,86%の人が得点した。
論文 参考訳(メタデータ) (2025-02-23T18:05:49Z) - Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind [51.45478233267092]
認知にインスパイアされたニューロシンボリックモデルであるスポークインストラクション(Spken Instruction following through Theory of Mind, SIFToM)を提案する。
SIFToMはモデルに基づくメンタル推論を備えたビジョンランゲージモデルを使用して、多様な音声条件下でロボットが現実的に人間の指示に従うことを可能にする。
その結果、SIFToMは、軽量ベースVLM(Gemini 2.5 Flash)の性能を大幅に向上し、最先端のVLM(Gemini 2.5 Pro)より優れ、タスク後の音声指示に挑戦する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-07-25T10:08:37Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。