論文の概要: DAVE: Diagnostic benchmark for Audio Visual Evaluation
- arxiv url: http://arxiv.org/abs/2503.09321v1
- Date: Wed, 12 Mar 2025 12:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:44.810833
- Title: DAVE: Diagnostic benchmark for Audio Visual Evaluation
- Title(参考訳): DAVE:オーディオ・ビジュアル・アセスメントのための診断ベンチマーク
- Authors: Gorjan Radevski, Teodora Popordanoska, Matthew B. Blaschko, Tinne Tuytelaars,
- Abstract要約: DAVEは,聴覚・視覚モデルの評価を体系的に行うために設計された,新しいベンチマークデータセットである。
DAVEは、(i)両方のモダリティが正しく答えるのを確実にし、(ii)評価をアトミックなサブカテゴリに分離することで、既存の制限を緩和する。
最先端モデルの詳細な分析では、特定の障害モードを明らかにし、改善のための目標となる洞察を提供する。
- 参考スコア(独自算出の注目度): 43.54781776394087
- License:
- Abstract: Audio-visual understanding is a rapidly evolving field that seeks to integrate and interpret information from both auditory and visual modalities. Despite recent advances in multi-modal learning, existing benchmarks often suffer from strong visual bias -- where answers can be inferred from visual data alone -- and provide only aggregate scores that conflate multiple sources of error. This makes it difficult to determine whether models struggle with visual understanding, audio interpretation, or audio-visual alignment. In this work, we introduce DAVE (Diagnostic Audio Visual Evaluation), a novel benchmark dataset designed to systematically evaluate audio-visual models across controlled challenges. DAVE alleviates existing limitations by (i) ensuring both modalities are necessary to answer correctly and (ii) decoupling evaluation into atomic subcategories. Our detailed analysis of state-of-the-art models reveals specific failure modes and provides targeted insights for improvement. By offering this standardized diagnostic framework, we aim to facilitate more robust development of audio-visual models. The dataset is released: https://github.com/gorjanradevski/dave
- Abstract(参考訳): 音声視覚理解は、聴覚と視覚の両方からの情報の統合と解釈を目指す、急速に発展する分野である。
マルチモーダルラーニングの最近の進歩にもかかわらず、既存のベンチマークは強力な視覚バイアスに悩まされがちだ。
これにより、モデルが視覚的理解、音声解釈、音声-視覚的アライメントに苦しむかどうかを判断することが困難になる。
本研究では,DAVE (Diagnostic Audio Visual Evaluation) を導入した。DAVE (Diagnostic Audio Visual Evaluation) は,制御された課題にまたがる音声視覚モデルの体系的評価を目的とした,新しいベンチマークデータセットである。
DAVEは既存の制限を緩和する
一 両方のモダリティが正しく答える必要があることを確保すること。
(II)原子サブカテゴリへの分解評価
最先端モデルの詳細な分析では、特定の障害モードを明らかにし、改善のための目標となる洞察を提供する。
この標準化された診断フレームワークを提供することで、音声視覚モデルのより堅牢な開発を容易にすることを目指している。
データセットがリリースされた。 https://github.com/gorjanradevski/dave
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event
Parser [34.19935635508947]
未探索のアンアライメント・セッティングについて検討し、そのゴールは、弱いラベルしか観測されていないビデオにおいて、音声や視覚イベントを認識することである。
この挑戦的な環境での学習を強化するため、大規模で対照的に事前訓練されたモデルをモダリティ教師として組み込んだ。
VALOR(Visual-Audio Label Elaboration)と呼ばれる、シンプルで効果的で汎用的な手法は、トレーニングイベントのモダリティラベルを抽出するために革新されている。
論文 参考訳(メタデータ) (2023-05-27T02:57:39Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention
Estimation for Non-Profilic Faces [28.245662058349854]
本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。
オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。
我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
論文 参考訳(メタデータ) (2022-07-07T02:23:02Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。