Fugu-MT 論文翻訳(概要): Audio-Visual LLM for Video Understanding

論文の概要: Audio-Visual LLM for Video Understanding

arxiv url: http://arxiv.org/abs/2312.06720v2
Date: Wed, 13 Dec 2023 04:45:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 11:33:19.098885
Title: Audio-Visual LLM for Video Understanding
Title（参考訳）: 映像理解のためのLLM
Authors: Fangxun Shu, Lei Zhang, Hao Jiang, Cihang Xie
Abstract要約: 本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。 GPT-4から派生した高品質のビデオ命令データセットを提案する。実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
参考スコア（独自算出の注目度）: 25.963166809113005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents Audio-Visual LLM, a Multimodal Large Language Model that takes both visual and auditory inputs for holistic video understanding. A key design is the modality-augmented training, which involves the integration of modality-specific tokens engineered to activate the appropriate visual and/or auditory encoder selectively. This mechanism is pivotal in enabling end-to-end joint training with video data at different modalities, including visual-only, audio-only, and audio-visual formats. Moreover, we introduce a high-quality video instruction dataset, derived from GPT-4. This dataset allows Audio-Visual LLM to adeptly process a variety of task-oriented video instructions, ranging from multi-turn conversations and audio-visual narratives to complex reasoning tasks. Extensive experiments demonstrate that Audio-Visual LLM impressively achieves strong zero-shot results across a range of video understanding tasks. For example, Audio-Visual LLM achieves an accuracy of 53.7% on MSRVTT-QA, outperforming non-LLM-based InterVideo by 6.6% and LLM-based Valley by 4.4%, respectively. Additionally, our Audio-Visual LLM also achieves competitive performance on audio tasks (e.g., AudioCaps).
Abstract（参考訳）: 本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。鍵となる設計は、適切な視覚および/または聴覚エンコーダを選択的に活性化するように設計されたモダリティ固有のトークンの統合を含むモダリティ提示トレーニングである。このメカニズムは、視覚のみ、オーディオオンリー、オーディオ-ビジュアルフォーマットなど、さまざまなモードでビデオデータとエンドツーエンドのジョイントトレーニングを可能にする上で重要なものだ。さらに,gpt-4から派生した高品質ビデオ命令データセットを提案する。このデータセットは、マルチターン会話やオーディオ視覚物語から複雑な推論タスクまで、様々なタスク指向のビデオ命令を順応的に処理することを可能にする。広範にわたる実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。例えば、Audio-Visual LLMはMSRVTT-QAで53.7%の精度を達成し、非LLMベースのInterVideoを6.6%、LLMベースのValleyを4.4%上回った。さらに、私たちのAudio-Visual LLMはオーディオタスク(例えばAudioCaps)の競合性能も達成しています。

関連論文リスト

DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。 DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-03T16:28:25Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
ACVUBench: Audio-Centric Video Understanding Benchmark [35.77437191750556]
ACVUBenchはオーディオ中心のビデオ理解ベンチマークである。 18のドメインにまたがる2,662本のビデオと、豊富な聴覚情報を含んでいる。ビデオにおけるオーディオコンテンツとオーディオと視覚の両方の相互作用の理解を、徹底的にテストする。
論文参考訳（メタデータ） (2025-03-25T16:28:24Z)
Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup [2.80888070977859]
映像と音声を併用した映像行動認識のための音声・視覚SSLを提案する。 UCF-51, Kinetics-400, VGGSoundデータセットの実験では,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2025-03-04T05:13:56Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。 AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文参考訳（メタデータ） (2024-11-25T09:22:13Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。 Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-07-01T23:32:25Z)
Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding [33.85362137961572]
PU-VALORは114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。 PU-VALORは、イベントベースのビデオクラスタリングを含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生した。 AVicunaは、音声・視覚イベントを時間間隔と対応するテキストトークンに整列できるモデルである。
論文参考訳（メタデータ） (2024-03-24T19:50:49Z)
Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。 FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。 FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文参考訳（メタデータ） (2023-10-09T17:00:20Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。 Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。 Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文参考訳（メタデータ） (2023-06-05T13:17:27Z)
AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文参考訳（メタデータ） (2021-05-17T08:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。