論文の概要: SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context
- arxiv url: http://arxiv.org/abs/2411.16213v2
- Date: Tue, 10 Dec 2024 19:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:04.250469
- Title: SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context
- Title(参考訳): SAVEn-Vid:ロングビデオコンテキストにおける理解向上のための相乗的オーディオ・ビジュアル統合
- Authors: Jungang Li, Sicheng Tao, Yibo Yan, Xiaojie Gu, Haodong Xu, Xu Zheng, Yuanhuiyi Lyu, Linfeng Zhang, Xuming Hu,
- Abstract要約: SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。
AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。
実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
- 参考スコア(独自算出の注目度): 19.224601064352846
- License:
- Abstract: Endeavors have been made to explore Large Language Models for video analysis (Video-LLMs), particularly in understanding and interpreting long videos. However, existing Video-LLMs still face challenges in effectively integrating the rich and diverse audio-visual information inherent in long videos, which is crucial for comprehensive understanding. This raises the question: how can we leverage embedded audio-visual information to enhance long video understanding? Therefore, (i) we introduce SAVEn-Vid, the first-ever long audio-visual video dataset comprising over 58k audio-visual instructions. (ii) From the model perspective, we propose a time-aware Audio-Visual Large Language Model (AV-LLM), SAVEnVideo, fine-tuned on SAVEn-Vid. (iii) Besides, we present AVBench, a benchmark containing 2,500 QAs designed to evaluate models on enhanced audio-visual comprehension tasks within long video, challenging their ability to handle intricate audio-visual interactions. Experiments on AVBench reveal the limitations of current AV-LLMs. Experiments also demonstrate that SAVEnVideo outperforms the best Video-LLM by 3.61% on the zero-shot long video task (Video-MME) and surpasses the leading audio-visual LLM by 1.29% on the zero-shot audio-visual task (Music-AVQA). Consequently, at the 7B parameter scale, SAVEnVideo can achieve state-of-the-art performance. Our dataset and code will be released at https://ljungang.github.io/SAVEn-Vid/ upon acceptance.
- Abstract(参考訳): ビデオ分析(ビデオ-LLM)のための大規模言語モデル(Large Language Models)の探索、特に長いビデオの理解と解釈が試みられている。
しかし、既存のビデオ-LLMは、長いビデオに固有のリッチで多様なオーディオ-視覚情報を効果的に統合する上で、依然として課題に直面している。
長いビデオの理解を深めるために、どのように組み込みオーディオ視覚情報を活用するのか?
そのため
(i)SAVEn-Vidは,58k以上の音声-視覚的指示を含む,史上初めて長い音声-視覚的ビデオデータセットである。
(II)モデルの観点から,SAVEn-Vidを微調整したAV-LLM(Audio-Visual Large Language Model)を提案する。
3)AVBenchは,音声・視覚的相互作用を複雑に処理する能力に挑戦し,長時間ビデオ内の音声・視覚的理解タスクのモデルを評価するためにデザインされた2500QAを含むベンチマークである。
AVBenchの実験は、現在のAV-LLMの限界を明らかにする。
SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)では3.61%、ゼロショット長ビデオタスク(Music-AVQA)では1.29%、トップのオーディオ・ヴィジュアル・タスクでは1.29%を上回っている。
その結果、7Bパラメータスケールでは、SAVEnVideoは最先端のパフォーマンスを達成することができる。
私たちのデータセットとコードは、受け入れ次第https://ljungang.github.io/SAVEn-Vid/でリリースされます。
関連論文リスト
- Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文 参考訳(メタデータ) (2024-07-21T03:59:14Z) - video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。
Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文 参考訳(メタデータ) (2024-06-22T01:36:11Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。
GPT-4から派生した高品質のビデオ命令データセットを提案する。
実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文 参考訳(メタデータ) (2023-12-11T02:50:46Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文 参考訳(メタデータ) (2023-06-05T13:17:27Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。