論文の概要: Can Vision Language Models Understand Mimed Actions?
- arxiv url: http://arxiv.org/abs/2506.21586v2
- Date: Thu, 07 Aug 2025 04:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 16:47:39.13204
- Title: Can Vision Language Models Understand Mimed Actions?
- Title(参考訳): ヴィジュアル言語モデルはミスドアクションを理解することができるか?
- Authors: Hyundong Cho, Spencer Lin, Tejas Srinivasan, Michael Saxon, Deuksin Kwon, Natali T. Chavez, Jonathan May,
- Abstract要約: 我々は、視覚言語モデルにとって、緩和行動のしっかりとした理解が重要な前提であると論じている。
そこで本研究では,86件の緩和行動からなるビデオベースの質問応答ベンチマークを提案する。
オープンウェイトモデルとAPIベースのビジョン言語モデルの両方が、MIME上で人間よりも大幅にパフォーマンスが低下していることが分かりました。
- 参考スコア(独自算出の注目度): 32.26651487752473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nonverbal communication (NVC) plays an integral role in human language, but studying NVC in general is challenging because of its broad scope and high variance in interpretation among individuals and cultures. However, mime -- the theatrical technique of suggesting intent using only gesture, expression, and movement -- is a subset of NVC that consists of explicit and embodied actions with much lower human interpretation variance. We argue that a solid understanding of mimed actions is a crucial prerequisite for vision-language models capable of interpreting and commanding more subtle aspects of NVC. Hence, we propose Mime Identification Multimodal Evaluation (MIME), a novel video-based question answering benchmark comprising of 86 mimed actions. Constructed with motion capture data, MIME consists of variations of each action with perturbations applied to the character, background, and viewpoint for evaluating recognition robustness. We find that both open-weight and API-based vision-language models perform significantly worse than humans on MIME, motivating the need for increased research for instilling more robust understanding of human gestures.
- Abstract(参考訳): 非言語コミュニケーション(NVC)は、人間の言語において重要な役割を担っているが、一般にNVCを研究することは、その範囲が広く、個人や文化間の解釈のばらつきが大きいため困難である。
しかし、身振り、表情、動きのみを用いて意図を示唆する演劇技法であるマイムは、人間の解釈のばらつきがはるかに低い明示的で具体化された行動からなるNVCのサブセットである。
我々は、NVCのより微妙な側面を解釈し、指揮することができる視覚言語モデルにとって、緩和行動のしっかりとした理解が重要な前提であると主張している。
そこで本研究では,86件の緩和行動からなるビデオベースの質問応答ベンチマークであるMime Identification Multimodal Evaluation (MIME)を提案する。
モーションキャプチャーデータを用いて構築されたMIMEは、認識の堅牢性を評価するためのキャラクタ、背景、視点に適用される摂動を伴う各アクションのバリエーションで構成されている。
オープンウェイトモデルとAPIベースの視覚言語モデルの両方が、MIME上で人間よりもはるかにパフォーマンスが悪く、人間のジェスチャーをより堅牢に理解するための研究の必要性を動機付けている。
関連論文リスト
- Grounding Task Assistance with Multimodal Cues from a Single Demonstration [17.975173937253494]
MICA(Multimodal Interactive Contextualized Assistance)は、視線と音声の手がかりを統合することで、タスク支援のための会話エージェントを改善するフレームワークである。
リアルタイムチャット支援タスク複製から得られる質問に対する評価は,複数モーダルキューがフレームベース検索よりも応答品質を著しく向上することを示している。
論文 参考訳(メタデータ) (2025-05-02T20:43:11Z) - The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion [46.01825432018138]
本稿では,多モーダル言語モデルを用いて,言語と非言語を統一する新しいフレームワークを提案する。
提案手法は,音声合成における最先端性能を実現する。
我々は、現実世界の応用には、人間の動きの言語と非言語を統一することが不可欠であると信じている。
論文 参考訳(メタデータ) (2024-12-13T19:33:48Z) - VAGUE: Visual Contexts Clarify Ambiguous Expressions [15.140825578254324]
目的のための視覚的コンテキストを統合するマルチモーダルAIシステムの能力を評価するベンチマークであるVAGUEを紹介する。
VAGUEは1.6Kの曖昧な文体表現で構成され、それぞれに画像と複数選択の解釈が組み合わされている。
我々の実験によると、既存のマルチモーダルAIモデルは話者の真の意図を推測するのに苦労している。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - LAMP: Leveraging Language Prompts for Multi-person Pose Estimation [8.983326069321981]
LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。
十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
論文 参考訳(メタデータ) (2023-07-21T23:00:43Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。