論文の概要: Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
- arxiv url: http://arxiv.org/abs/2503.09205v2
- Date: Thu, 13 Mar 2025 18:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 09:24:07.624444
- Title: Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
- Title(参考訳): データ効率のよいオーディオ・ビデオ基礎モデルのためのLCMに基づくキュレーション
- Authors: Ali Vosoughi, Dimitra Emmanouilidou, Hannes Gamper,
- Abstract要約: AVVAは、オーディオ用Whisperとビデオ用DINOv2を使って、デュアルエンコーダコントラスト学習フレームワーク内で高品質なトレーニングクリップをスコアし、選択する。
データ品質のトレーディングデータ量により、AudioCaps、VALOR、VGGSoundの各トップ3の精度は47.8、48.4、58.0ポイント向上する。
- 参考スコア(独自算出の注目度): 11.010635593271045
- License:
- Abstract: Integrating audio and visual data for training multimodal foundational models remains challenging. We present Audio-Video Vector Alignment (AVVA), which aligns audiovisual (AV) scene content beyond mere temporal synchronization via a Large Language Model (LLM)-based data curation pipeline. Specifically, AVVA scores and selects high-quality training clips using Whisper (speech-based audio foundation model) for audio and DINOv2 for video within a dual-encoder contrastive learning framework. Evaluations on AudioCaps, VALOR, and VGGSound demonstrate that this approach can achieve significant accuracy gains with substantially less curated data. For instance, AVVA yields a 7.6% improvement in top-1 accuracy for audio-to-video retrieval on VGGSound compared to ImageBind, despite training on only 192 hours of carefully filtered data (vs. 5800+ hours). Moreover, an ablation study highlights that trading data quantity for data quality improves performance, yielding respective top-3 accuracy increases of 47.8, 48.4, and 58.0 percentage points on AudioCaps, VALOR, and VGGSound over uncurated baselines. While these results underscore AVVA's data efficiency, we also discuss the overhead of LLM-driven curation and how it may be scaled or approximated in larger domains. Overall, AVVA provides a viable path toward more robust, text-free audiovisual learning with improved retrieval accuracy.
- Abstract(参考訳): マルチモーダル基礎モデルのトレーニングに音声と視覚データを統合することは依然として困難である。
本稿では,Large Language Model (LLM) ベースのデータキュレーションパイプラインを通じて,オーディオ視覚(AV)シーンのコンテンツを単なる時間的同期を超えるように調整するAVVA(Audio-Video Vector Alignment)を提案する。
具体的には、オーディオ用Whisper(音声ベース基礎モデル)とビデオ用DINOv2を用いて、デュアルエンコーダコントラスト学習フレームワーク内で高品質なトレーニングクリップをスコアし、選択する。
AudioCaps、VALOR、VGGSoundの評価は、この手法がかなり少ないキュレートデータでかなり精度の高いゲインを達成できることを実証している。
例えば、AVVAは、注意深くフィルタリングされた192時間(約5800時間)しかトレーニングしていないにも関わらず、VGGSoundのオーディオ・ビデオ検索において、ImageBindと比較して、トップ1の精度が7.6%向上している。
さらに、データ品質のトレーディングデータ量によってパフォーマンスが向上し、AudioCaps、VALOR、VGGSoundの各トップ3の精度は47.8、48.4、58.0ポイント向上した。
これらの結果はAVVAのデータ効率を裏付けるものであるが、LLM駆動型キュレーションのオーバーヘッドや、大規模ドメインでのスケールや近似の方法についても論じる。
全体として、AVVAは、より堅牢でテキストのないオーディオ視覚学習への実行可能なパスを提供し、精度が向上した。
関連論文リスト
- SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。
AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。
実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文 参考訳(メタデータ) (2024-11-25T09:22:13Z) - Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文 参考訳(メタデータ) (2024-07-21T03:59:14Z) - SAVE: Segment Audio-Visual Easy way using Segment Anything Model [0.0]
そこで本研究では,AVSタスクに対して,事前学習セグメントモデル(SAM)を効率的に適用するための軽量なアプローチSAVEを提案する。
提案手法は,符号化段階における効果的な音声と視覚の融合と相互作用を実現する。
論文 参考訳(メタデータ) (2024-07-02T07:22:28Z) - Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。