論文の概要: VGGSounder: Audio-Visual Evaluations for Foundation Models
- arxiv url: http://arxiv.org/abs/2508.08237v1
- Date: Mon, 11 Aug 2025 17:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.250659
- Title: VGGSounder: Audio-Visual Evaluations for Foundation Models
- Title(参考訳): VGGSounder:基礎モデルのためのオーディオ・ビジュアル評価
- Authors: Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke,
- Abstract要約: VGGSounderは、VGGSoundを拡張し、音声・視覚基盤モデルを評価するために特別に設計された、再注釈付きマルチラベルテストセットである。
VGGSounderは詳細なモダリティアノテーションを備えており、モダリティ固有のパフォーマンスを正確に分析することができる。
- 参考スコア(独自算出の注目度): 28.302749771134895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSounder dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSounder, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce VGGSounder, a comprehensively re-annotated, multi-label test set that extends VGGSound and is specifically designed to evaluate audio-visual foundation models. VGGSounder features detailed modality annotations, enabling precise analyses of modality-specific performance. Furthermore, we reveal model limitations by analysing performance degradation when adding another input modality with our new modality confusion metric.
- Abstract(参考訳): 音声・視覚基盤モデルの出現は、そのマルチモーダル理解を確実に評価することの重要性を浮き彫りにしている。
VGGSounderデータセットは、音声視覚分類の評価のためのベンチマークとして一般的に使用される。
しかしながら,不完全ラベリング,部分重複クラス,不整合モーダル性など,VGGSounderのいくつかの制限について解析を行った。
これらは聴覚と視覚能力の歪曲評価に繋がる。
これらの制約に対処するため,VGGSounderは,VGGSoundを拡張し,音声・視覚基盤モデルの評価に特化して設計された,包括的に再注釈されたマルチラベルテストセットである。
VGGSounderは詳細なモダリティアノテーションを備えており、モダリティ固有のパフォーマンスを正確に分析することができる。
さらに,新たなモダリティ混同指標を用いて,他の入力モダリティを追加する際の性能劣化を解析することにより,モデル制限を明らかにする。
関連論文リスト
- Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - DAVE: Diagnostic benchmark for Audio Visual Evaluation [43.54781776394087]
DAVEは,聴覚・視覚モデルの評価を体系的に行うために設計された,新しいベンチマークデータセットである。
DAVEは、(i)両方のモダリティが正しく答えるのを確実にし、(ii)評価をアトミックなサブカテゴリに分離することで、既存の制限を緩和する。
最先端モデルの詳細な分析では、特定の障害モードを明らかにし、改善のための目標となる洞察を提供する。
論文 参考訳(メタデータ) (2025-03-12T12:12:46Z) - Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。