論文の概要: WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM
- arxiv url: http://arxiv.org/abs/2509.21990v1
- Date: Fri, 26 Sep 2025 07:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.264345
- Title: WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM
- Title(参考訳): WAVE:マルチモーダルLLMによる統一・多目的オーディオ-ビジュアル埋め込みの学習
- Authors: Changli Tang, Qinfan Xiao, Ke Mei, Tianyi Wang, Fengyun Rao, Chao Zhang,
- Abstract要約: WAVEは、テキスト、オーディオ、ビデオのモダリティを統一した表現空間を作成する最初のLCMベースの埋め込みである。
WAVEは、MMEB-v2ビデオベンチマークに新しい最先端技術を設定し、オーディオとオーディオの検索において優れた結果を得る。
私たちのコード、チェックポイント、データはリリースされます。
- 参考スコア(独自算出の注目度): 16.208093319821156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While embeddings from multimodal large language models (LLMs) excel as general-purpose representations, their application to dynamic modalities like audio and video remains underexplored. We introduce WAVE (\textbf{u}nified \& \textbf{v}ersatile \textbf{a}udio-\textbf{v}isual \textbf{e}mbeddings), the first LLM-based embedding that creates a unified representation space for text, audio, and video modalities. WAVE employs a novel hierarchical feature fusion strategy and a joint multi-modal, multi-task training approach to enable two key capabilities: any-to-any cross-modal retrieval and the generation of prompt-aware embeddings tailored to user instructions. Experimentally, WAVE sets a new state-of-the-art on the MMEB-v2 video benchmark and achieves superior results in audio and video-to-audio retrieval. Its prompt-aware nature also yields remarkable performance in multimodal question answering, significantly outperforming existing embedding models. Ablation studies validate our joint training strategy, demonstrating improved performance across all modalities. With a newly introduced benchmark for versatile audio-visual learning, WAVE opens up broad possibilities for cross-modal, any-to-any applications. Our code, checkpoints, and data will be released.
- Abstract(参考訳): マルチモーダルな大言語モデル(LLM)からの埋め込みは汎用的な表現として優れているが、オーディオやビデオのような動的モダリティへの応用は未定である。
WAVE (\textbf{u}nified \& \textbf{v}ersatile \textbf{a}udio-\textbf{v}isual \textbf{e}mbeddings) を導入する。
WAVEは、新しい階層的特徴融合戦略と、マルチモーダルでマルチタスクなトレーニングアプローチを採用して、2つの重要な機能を実現している。
実験的に、WAVEはMMEB-v2ビデオベンチマークに新しい最先端技術を設定し、オーディオとオーディオの検索において優れた結果を得る。
その素早い認識の性質は、マルチモーダルな質問応答において顕著な性能をもたらし、既存の埋め込みモデルよりも著しく優れている。
アブレーション研究は、我々の共同トレーニング戦略を検証し、すべてのモダリティにおけるパフォーマンスの向上を実証する。
WAVEは、多目的なオーディオ視覚学習のためのベンチマークを新たに導入し、クロスモーダルな、あらゆるアプリケーションに対する幅広い可能性を開く。
私たちのコード、チェックポイント、データはリリースされます。
関連論文リスト
- VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents [105.43882565434444]
VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。
まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。
次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
論文 参考訳(メタデータ) (2025-07-07T00:51:57Z) - MAGMaR Shared Task System Description: Video Retrieval with OmniEmbed [55.526939500742]
我々はTevatron 2.0ツールキットの強力なマルチモーダル埋め込みモデルであるOmniEmbedを使用して、テキスト、画像、オーディオ、ビデオの統一埋め込みを生成する。
2025年5月20日時点の公募では、MAGMaRのタスクリーダーボードの最高スコアを達成しました。
論文 参考訳(メタデータ) (2025-06-11T05:40:26Z) - CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval [70.9990850395981]
CLaMRは、ビデオフレーム、書き起こされた音声、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルな遅延相互作用レトリバーである。
CLaMRは2つの重要な革新を通じて動的モダリティ選択を強化するために訓練されている。
論文 参考訳(メタデータ) (2025-06-06T15:02:30Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。
MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文 参考訳(メタデータ) (2025-03-26T16:28:04Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。