Fugu-MT 論文翻訳(概要): Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

論文の概要: Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

arxiv url: http://arxiv.org/abs/2503.09205v3
Date: Thu, 30 Oct 2025 17:37:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-31 16:05:09.259975
Title: Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
Title（参考訳）: データ効率のよいオーディオ・ビデオ基礎モデルのためのLCMに基づくキュレーション
Authors: Ali Vosoughi, Dimitra Emmanouilidou, Hannes Gamper,
Abstract要約: このフレームワークは、整列したトレーニングデータセグメントを選択するためのスコアリング機構を実装している。音声ベースの基礎モデルであるWhisperと、デュアルエンコーダ構造におけるビデオ解析のためのDINOv2を統合している。 AudioCaps、VALOR、VGGSoundの評価は、提案したモデルアーキテクチャの有効性を示す。
参考スコア（独自算出の注目度）: 16.22530358172138
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Integrating audio and visual data for training multimodal foundational models remains a challenge. The Audio-Video Vector Alignment (AVVA) framework addresses this by considering AV scene alignment beyond mere temporal synchronization, and leveraging Large Language Models (LLMs) for data curation. AVVA implements a scoring mechanism for selecting aligned training data segments. It integrates Whisper, a speech-based foundation model, for audio and DINOv2 for video analysis in a dual-encoder structure with contrastive learning on AV pairs. Evaluations on AudioCaps, VALOR, and VGGSound demonstrate the effectiveness of the proposed model architecture and data curation approach. AVVA achieves a significant improvement in top-k accuracies for video-to-audio retrieval on all datasets compared to DenseAV, while using only 192 hrs of curated training data. Furthermore, an ablation study indicates that the data curation process effectively trades data quality for data quantity, yielding increases in top-k retrieval accuracies on AudioCaps, VALOR, and VGGSound, compared to training on the full spectrum of uncurated data.
Abstract（参考訳）: マルチモーダル基礎モデルのトレーニングに音声と視覚データを統合することは、依然として課題である。 AVVA(Audio-Video Vector Alignment)フレームワークは、単なる時間同期以上のAVシーンアライメントを考慮し、データキュレーションにLLM(Large Language Models)を活用することで、この問題に対処する。 AVVAは、整列したトレーニングデータセグメントを選択するためのスコアリング機構を実装している。音声ベースの基礎モデルであるWhisperと、ビデオ分析のためのDINOv2を、AVペアのコントラスト学習を備えたデュアルエンコーダ構造に統合する。 AudioCaps、VALOR、VGGSoundの評価は、提案したモデルアーキテクチャとデータキュレーション手法の有効性を示す。 AVVAは、DenseAVと比較して、すべてのデータセットでビデオからオーディオまでの検索において、192時間しかキュレートされていないトレーニングデータを使用して、トップkの精度を大幅に向上する。さらに,AudioCaps,VALOR,VGGSoundにおけるトップk検索精度は,未処理データの全スペクトルでのトレーニングと比較して,データキュレーションプロセスがデータ量に対するデータ品質を効果的に交換することを示す。

関連論文リスト

SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。 AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文参考訳（メタデータ） (2024-11-25T09:22:13Z)
Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文参考訳（メタデータ） (2024-07-21T03:59:14Z)
SAVE: Segment Audio-Visual Easy way using Segment Anything Model [0.0]
そこで本研究では,AVSタスクに対して,事前学習セグメントモデル(SAM)を効率的に適用するための軽量なアプローチSAVEを提案する。提案手法は,符号化段階における効果的な音声と視覚の融合と相互作用を実現する。
論文参考訳（メタデータ） (2024-07-02T07:22:28Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文参考訳（メタデータ） (2023-03-29T07:24:28Z)
Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder) 我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文参考訳（メタデータ） (2022-10-02T07:29:57Z)
Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文参考訳（メタデータ） (2022-01-05T18:50:50Z)
VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文参考訳（メタデータ） (2020-04-29T17:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。