論文の概要: BQA: Body Language Question Answering Dataset for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13206v1
- Date: Thu, 17 Oct 2024 04:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:15.630823
- Title: BQA: Body Language Question Answering Dataset for Video Large Language Models
- Title(参考訳): BQA:ビデオ大言語モデルのためのボディーランゲージ問題解答データセット
- Authors: Shintaro Ozaki, Kazuki Hayashi, Miyu Oba, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: 非言語コミュニケーションは形式的な規則を欠き、常識的理解に基づく複雑な推論を必要とする。
身体言語を正確に解釈するビデオ大言語モデル(VideoLLMs)は、人間の無意識行動がモデルに意図を誤解釈させる可能性があるため、重要な課題である。
本稿では,ボディランゲージの短いクリップから感情を正しく解釈できるかどうかを検証するために,ボディーランゲージ質問応答データセットであるBQAを提案する。
- 参考スコア(独自算出の注目度): 23.249748707506154
- License:
- Abstract: A large part of human communication relies on nonverbal cues such as facial expressions, eye contact, and body language. Unlike language or sign language, such nonverbal communication lacks formal rules, requiring complex reasoning based on commonsense understanding. Enabling current Video Large Language Models (VideoLLMs) to accurately interpret body language is a crucial challenge, as human unconscious actions can easily cause the model to misinterpret their intent. To address this, we propose a dataset, BQA, a body language question answering dataset, to validate whether the model can correctly interpret emotions from short clips of body language comprising 26 emotion labels of videos of body language. We evaluated various VideoLLMs on BQA and revealed that understanding body language is challenging, and our analyses of the wrong answers by VideoLLMs show that certain VideoLLMs made significantly biased answers depending on the age group and ethnicity of the individuals in the video. The dataset is available.
- Abstract(参考訳): 人間のコミュニケーションの大部分は、表情、アイコンタクト、ボディランゲージといった非言語的な手がかりに依存している。
言語や手話とは異なり、そのような非言語コミュニケーションは形式的な規則を欠き、常識的理解に基づく複雑な推論を必要とする。
現在のビデオ大言語モデル(VideoLLM)を正確に解釈するために実装することは、人間の無意識な行動がモデルにその意図を誤解させる可能性があるため、重要な課題である。
そこで本研究では,BQAというボディーランゲージ質問応答データセットを提案する。BQAは,ボディーランゲージのビデオの26の感情ラベルからなるボディランゲージの短いクリップから,モデルが感情を正しく解釈できるかどうかを検証する。
我々は,BQA上での様々なビデオLLMを評価し,ボディランゲージの理解が困難であることを明らかにし,ビデオLLMによる誤った回答の分析から,ビデオLLMが年齢群や個人の民族性によって有意に偏りを示したことが判明した。
データセットは利用可能だ。
関連論文リスト
- Generative Emotion Cause Explanation in Multimodal Conversations [23.39751445330256]
我々は、新しいタスク textbfMultimodal textbfConversation textbfEmotion textbfCause textbfExplanation (MCECE)を提案する。
マルチモーダル会話シナリオにおいて、ターゲット発話に対する感情的原因を詳細に説明することを目的としている。
FAME-Netという新しいアプローチが提案され、ビデオの表情を通して、視覚データを解析し、感情を正確に解釈するLarge Language Models(LLMs)の力を利用する。
論文 参考訳(メタデータ) (2024-11-01T09:16:30Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model [22.292581935835678]
EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。
また,NFBL(Non-Facial Body Language)アノテーションを各プレイヤーに提供します。
NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
論文 参考訳(メタデータ) (2024-05-01T15:25:54Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
モデルの精度は85.64%と報告されている。
論文 参考訳(メタデータ) (2023-02-22T18:55:54Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。
本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。
私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文 参考訳(メタデータ) (2022-10-04T22:44:17Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。