論文の概要: Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM
- arxiv url: http://arxiv.org/abs/2505.18110v1
- Date: Fri, 23 May 2025 17:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.242463
- Title: Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM
- Title(参考訳): 視聴と聴取:マルチモーダルLLMによる音声・音声モーメントの理解
- Authors: Zinuo Li, Xian Zhang, Yongxin Guo, Mohammed Bennamoun, Farid Boussaid, Girish Dwivedi, Luqi Gong, Qiuhong Ke,
- Abstract要約: TriSenseは、全体論的ビデオ時間的理解のために設計された3重モードの大言語モデルである。
Central to TriSenseは、クエリベースのコネクタで、入力クエリに基づいてモダリティのコントリビューションを適応的にリウェイトする。
TriSense-2Mは、自動パイプラインで生成された200万以上のキュレートされたサンプルのデータセットである。
- 参考スコア(独自算出の注目度): 32.06547791451391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans naturally understand moments in a video by integrating visual and auditory cues. For example, localizing a scene in the video like "A scientist passionately speaks on wildlife conservation as dramatic orchestral music plays, with the audience nodding and applauding" requires simultaneous processing of visual, audio, and speech signals. However, existing models often struggle to effectively fuse and interpret audio information, limiting their capacity for comprehensive video temporal understanding. To address this, we present TriSense, a triple-modality large language model designed for holistic video temporal understanding through the integration of visual, audio, and speech modalities. Central to TriSense is a Query-Based Connector that adaptively reweights modality contributions based on the input query, enabling robust performance under modality dropout and allowing flexible combinations of available inputs. To support TriSense's multimodal capabilities, we introduce TriSense-2M, a high-quality dataset of over 2 million curated samples generated via an automated pipeline powered by fine-tuned LLMs. TriSense-2M includes long-form videos and diverse modality combinations, facilitating broad generalization. Extensive experiments across multiple benchmarks demonstrate the effectiveness of TriSense and its potential to advance multimodal video analysis. Code and dataset will be publicly released.
- Abstract(参考訳): 人間は視覚と聴覚の手がかりを統合することで、ビデオの中の瞬間を自然に理解する。
例えば、ビデオ中のシーンをローカライズするには、「科学者は劇的なオーケストラ音楽の演奏として野生生物の保護について熱心に語り、聴衆はうなずき、拍手する」ため、視覚、音声、音声信号の同時処理が必要である。
しかし、既存のモデルは音声情報を効果的に融合し解釈することに苦慮し、ビデオの時間的理解の包括的な能力を制限する。
そこで本研究では,視覚・音声・音声モダリティの統合による時間的包括的ビデオ理解のための三重モード大言語モデルであるTriSenseを提案する。
Central to TriSenseは、クエリベースのコネクタで、入力クエリに基づいてモダリティコントリビューションを適応的にリウェイトし、モダリティドロップアウト時の堅牢なパフォーマンスを実現し、利用可能なインプットの柔軟な組み合わせを可能にする。
TriSenseのマルチモーダル機能をサポートするために、細調整のLLMをベースとした自動パイプラインを通じて200万以上のキュレートされたサンプルの高品質データセットであるTriSense-2Mを紹介した。
TriSense-2Mには、長いビデオと多彩なモダリティの組み合わせが含まれており、幅広い一般化を容易にしている。
複数のベンチマークにわたる大規模な実験は、TriSenseの有効性とマルチモーダルビデオ解析の進歩の可能性を示している。
コードとデータセットが公開される。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。