Fugu-MT 論文翻訳(概要): SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context

論文の概要: SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context

arxiv url: http://arxiv.org/abs/2411.16213v1
Date: Mon, 25 Nov 2024 09:22:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.748113
Title: SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context
Title（参考訳）: SAVEn-Vid:ロングビデオコンテキストにおける理解向上のための相乗的オーディオ・ビジュアル統合
Authors: Jungang Li, Sicheng Tao, Yibo Yan, Xiaojie Gu, Haodong Xu, Xu Zheng, Yuanhuiyi Lyu, Linfeng Zhang, Xuming Hu,
Abstract要約: SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。 AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
参考スコア（独自算出の注目度）: 19.224601064352846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Endeavors have been made to explore Large Language Models for video analysis (Video-LLMs), particularly in understanding and interpreting long videos. However, existing Video-LLMs still face challenges in effectively integrating the rich and diverse audio-visual information inherent in long videos, which is crucial for comprehensive understanding. This raises the question: how can we leverage embedded audio-visual information to enhance long video understanding? Therefore, (i) we introduce SAVEn-Vid, the first-ever long audio-visual video dataset comprising over 58k audio-visual instructions. (ii) From the model perspective, we propose a time-aware Audio-Visual Large Language Model (AV-LLM), SAVEnVideo, fine-tuned on SAVEn-Vid. (iii) Besides, we present AVBench, a benchmark containing 2,500 QAs designed to evaluate models on enhanced audio-visual comprehension tasks within long video, challenging their ability to handle intricate audio-visual interactions. Experiments on AVBench reveal the limitations of current AV-LLMs. Experiments also demonstrate that SAVEnVideo outperforms the best Video-LLM by 3.61% on the zero-shot long video task (Video-MME) and surpasses the leading audio-visual LLM by 1.29% on the zero-shot audio-visual task (Music-AVQA). Consequently, at the 7B parameter scale, SAVEnVideo can achieve state-of-the-art performance. Our dataset and code will be released at https://ljungang.github.io/SAVEn-Vid/ upon acceptance.
Abstract（参考訳）: ビデオ分析(ビデオ-LLM)のための大規模言語モデル(Large Language Models)の探索、特に長いビデオの理解と解釈が試みられている。しかし、既存のビデオ-LLMは、長いビデオに固有のリッチで多様なオーディオ-視覚情報を効果的に統合する上で、依然として課題に直面している。長いビデオの理解を深めるために、どのように組み込みオーディオ視覚情報を活用するのか? そのため (i)SAVEn-Vidは,58k以上の音声-視覚的指示を含む,史上初めて長い音声-視覚的ビデオデータセットである。 (II)モデルの観点から,SAVEn-Vidを微調整したAV-LLM(Audio-Visual Large Language Model)を提案する。 3)AVBenchは,音声・視覚的相互作用を複雑に処理する能力に挑戦し,長時間ビデオ内の音声・視覚的理解タスクのモデルを評価するためにデザインされた2500QAを含むベンチマークである。 AVBenchの実験は、現在のAV-LLMの限界を明らかにする。 SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)では3.61%、ゼロショット長ビデオタスク(Music-AVQA)では1.29%、トップのオーディオ・ヴィジュアル・タスクでは1.29%を上回っている。その結果、7Bパラメータスケールでは、SAVEnVideoは最先端のパフォーマンスを達成することができる。私たちのデータセットとコードは、受け入れ次第https://ljungang.github.io/SAVEn-Vid/でリリースされます。

関連論文リスト

Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
Aligned Better, Listen Better for Audio-Visual Large Language Models [21.525317311280205]
ビデオには本質的に音声が含まれており、視覚に情報を提供する。ビデオ大言語モデル(ビデオ-LLM)は多くのオーディオ中心の設定に遭遇する。既存のモデルは、音声情報を利用するのに欠陥があり、理解と幻覚が弱い。
論文参考訳（メタデータ） (2025-04-02T18:47:09Z)
ACVUBench: Audio-Centric Video Understanding Benchmark [35.77437191750556]
ACVUBenchはオーディオ中心のビデオ理解ベンチマークである。 18のドメインにまたがる2,662本のビデオと、豊富な聴覚情報を含んでいる。ビデオにおけるオーディオコンテンツとオーディオと視覚の両方の相互作用の理解を、徹底的にテストする。
論文参考訳（メタデータ） (2025-03-25T16:28:24Z)
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。 AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文参考訳（メタデータ） (2025-03-06T00:10:26Z)
Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup [2.80888070977859]
映像と音声を併用した映像行動認識のための音声・視覚SSLを提案する。 UCF-51, Kinetics-400, VGGSoundデータセットの実験では,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2025-03-04T05:13:56Z)
Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文参考訳（メタデータ） (2024-07-21T03:59:14Z)
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。 Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文参考訳（メタデータ） (2024-06-22T01:36:11Z)
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。 VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文参考訳（メタデータ） (2024-06-06T17:58:11Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。 GPT-4から派生した高品質のビデオ命令データセットを提案する。実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文参考訳（メタデータ） (2023-12-11T02:50:46Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。 Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。 Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文参考訳（メタデータ） (2023-06-05T13:17:27Z)
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文参考訳（メタデータ） (2022-04-06T14:43:42Z)
AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文参考訳（メタデータ） (2021-05-17T08:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。