論文の概要: MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models
- arxiv url: http://arxiv.org/abs/2502.16671v1
- Date: Sun, 23 Feb 2025 18:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:35.476104
- Title: MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models
- Title(参考訳): MimeQA: 社会的にインテリジェントな非言語基盤モデルを目指して
- Authors: Hengzhi Li, Megan Tjandrasuwita, Yi R. Fung, Armando Solar-Lezama, Paul Pu Liang,
- Abstract要約: 非言語的、社会的相互作用に富んだデータをタップします -- マイムビデオ。
最新のビデオ大言語モデル (vLLMs) を評価し, 全体的な精度は15~30%であった。
我々の分析によると、vLLMは、しばしば想像されたオブジェクトをグラウンディングしたり、テキストプロンプトを過度にリライズしたりしながら、微妙な非言語的相互作用を無視したりする。
- 参考スコア(独自算出の注目度): 27.930709161679424
- License:
- Abstract: Socially intelligent AI that can understand and interact seamlessly with humans in daily lives is increasingly important as AI becomes more closely integrated with peoples' daily activities. However, current works in artificial social reasoning all rely on language-only, or language-dominant approaches to benchmark and training models, resulting in systems that are improving in verbal communication but struggle with nonverbal social understanding. To address this limitation, we tap into a novel source of data rich in nonverbal and social interactions -- mime videos. Mimes refer to the art of expression through gesture and movement without spoken words, which presents unique challenges and opportunities in interpreting non-verbal social communication. We contribute a new dataset called MimeQA, obtained by sourcing 221 videos from YouTube, through rigorous annotation and verification, resulting in a benchmark with 101 videos and 806 question-answer pairs. Using MimeQA, we evaluate state-of-the-art video large language models (vLLMs) and find that their overall accuracy ranges from 15-30%. Our analysis reveals that vLLMs often fail to ground imagined objects and over-rely on the text prompt while ignoring subtle nonverbal interactions. Our data resources are released at https://github.com/MIT-MI/MimeQA to inspire future work in foundation models that embody true social intelligence capable of interpreting non-verbal human interactions.
- Abstract(参考訳): 日々の生活の中で人間とシームレスに理解し対話できる社会的にインテリジェントなAIは、AIが人々の日々の活動とより密に統合されるにつれて、ますます重要になる。
しかし、現在の人工社会的推論における作業は、すべて言語のみのアプローチ、あるいは言語に支配的なベンチマークとトレーニングモデルに依存しており、結果として、言語コミュニケーションを改善する一方で、非言語的社会的理解に苦しむシステムを生み出している。
この制限に対処するため、私たちは、非言語的、社会的相互作用に富んだ新しいデータソース(マイムビデオ)をタップします。
ミーム(Mimes)とは、言葉のないジェスチャーや動きを通じて表現の技法を指し、非言語的な社会的コミュニケーションを解釈するユニークな課題と機会を提示する。
我々は,厳密なアノテーションと検証を通じて,YouTubeから221本の動画を抽出して得られたMimeQAという新しいデータセットを寄贈し,その結果,101本の動画と806本の質問応答ペアでベンチマークを行った。
MimeQAを用いて、最先端のビデオ大言語モデル(vLLM)を評価し、その全体的な精度は15~30%である。
我々の分析によると、vLLMは、しばしば想像されたオブジェクトをグラウンディングしたり、テキストプロンプトを過度にリライズしたりしながら、微妙な非言語的相互作用を無視したりする。
我々のデータリソースはhttps://github.com/MIT-MI/MimeQAでリリースされ、非言語的人間のインタラクションを解釈できる真のソーシャルインテリジェンスを具現化した基盤モデルにおける将来の作業に刺激を与えます。
関連論文リスト
- Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning [31.196865401472664]
自然言語の環境に関する生産的な議論を人間による実演なしで行うように、言語モデルを訓練する。
我々はエージェントの目標を利用して、コミュニケーションを誘導する高密度報酬信号として、世界の有用な情報を予測する。
我々は、容疑者の告発や証拠提供など、我々の技術による創発的行動を分析し、強力な議論を可能にすることを発見した。
論文 参考訳(メタデータ) (2025-02-09T22:44:45Z) - The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion [46.01825432018138]
本稿では,多モーダル言語モデルを用いて,言語と非言語を統一する新しいフレームワークを提案する。
提案手法は,音声合成における最先端性能を実現する。
我々は、現実世界の応用には、人間の動きの言語と非言語を統一することが不可欠であると信じている。
論文 参考訳(メタデータ) (2024-12-13T19:33:48Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue [73.69510478736483]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。
しかし、それらは重要な能力、コミュニケーションスキルを欠いている。
本稿は,内的モノローグによるLLMのコミュニケーション能力向上を目的としている。
実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T16:19:42Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z) - SocialAI 0.1: Towards a Benchmark to Stimulate Research on
Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.719833581321033]
人間との社会的相互作用に参加できる体型自律エージェントを構築することは、AIの主要な課題の1つです。
現在のアプローチは、非常に単純で非多様な社会状況におけるコミュニケーションツールとして言語に焦点を当てています。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要であると私たちは主張します。
論文 参考訳(メタデータ) (2021-04-27T14:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。