Fugu-MT 論文翻訳(概要): DAVE: Diagnostic benchmark for Audio Visual Evaluation

論文の概要: DAVE: Diagnostic benchmark for Audio Visual Evaluation

arxiv url: http://arxiv.org/abs/2503.09321v1
Date: Wed, 12 Mar 2025 12:12:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.738689
Title: DAVE: Diagnostic benchmark for Audio Visual Evaluation
Title（参考訳）: DAVE:オーディオ・ビジュアル・アセスメントのための診断ベンチマーク
Authors: Gorjan Radevski, Teodora Popordanoska, Matthew B. Blaschko, Tinne Tuytelaars,
Abstract要約: DAVEは,聴覚・視覚モデルの評価を体系的に行うために設計された,新しいベンチマークデータセットである。 DAVEは、(i)両方のモダリティが正しく答えるのを確実にし、(ii)評価をアトミックなサブカテゴリに分離することで、既存の制限を緩和する。最先端モデルの詳細な分析では、特定の障害モードを明らかにし、改善のための目標となる洞察を提供する。
参考スコア（独自算出の注目度）: 43.54781776394087
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-visual understanding is a rapidly evolving field that seeks to integrate and interpret information from both auditory and visual modalities. Despite recent advances in multi-modal learning, existing benchmarks often suffer from strong visual bias -- where answers can be inferred from visual data alone -- and provide only aggregate scores that conflate multiple sources of error. This makes it difficult to determine whether models struggle with visual understanding, audio interpretation, or audio-visual alignment. In this work, we introduce DAVE (Diagnostic Audio Visual Evaluation), a novel benchmark dataset designed to systematically evaluate audio-visual models across controlled challenges. DAVE alleviates existing limitations by (i) ensuring both modalities are necessary to answer correctly and (ii) decoupling evaluation into atomic subcategories. Our detailed analysis of state-of-the-art models reveals specific failure modes and provides targeted insights for improvement. By offering this standardized diagnostic framework, we aim to facilitate more robust development of audio-visual models. The dataset is released: https://github.com/gorjanradevski/dave
Abstract（参考訳）: 音声視覚理解は、聴覚と視覚の両方からの情報の統合と解釈を目指す、急速に発展する分野である。マルチモーダルラーニングの最近の進歩にもかかわらず、既存のベンチマークは強力な視覚バイアスに悩まされがちだ。これにより、モデルが視覚的理解、音声解釈、音声-視覚的アライメントに苦しむかどうかを判断することが困難になる。本研究では,DAVE (Diagnostic Audio Visual Evaluation) を導入した。DAVE (Diagnostic Audio Visual Evaluation) は,制御された課題にまたがる音声視覚モデルの体系的評価を目的とした,新しいベンチマークデータセットである。 DAVEは既存の制限を緩和する一両方のモダリティが正しく答える必要があることを確保すること。 (II)原子サブカテゴリへの分解評価最先端モデルの詳細な分析では、特定の障害モードを明らかにし、改善のための目標となる洞察を提供する。この標準化された診断フレームワークを提供することで、音声視覚モデルのより堅牢な開発を容易にすることを目指している。データセットがリリースされた。 https://github.com/gorjanradevski/dave

関連論文リスト

$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning [31.61978841892981]
本稿では,2つの段階で構築された新しいデータセットFortisAVQAを紹介する。第1段階はより多様性のあるテスト空間を拡大し、第2段階は洗練された堅牢性評価を可能にする。我々のアーキテクチャはFortisAVQAの最先端性能を実現し、7.81%の顕著な改善を実現している。
論文参考訳（メタデータ） (2025-04-01T07:23:50Z)
Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment [26.399212357764576]
音声-視覚的手がかりに基づく聴覚オブジェクトの正確な位置決めは、音声-視覚的セグメンテーションの中核的な目的である。本稿では,AMAモジュールとUEモジュールの2つの主要コンポーネントを持つ新しいフレームワークを提案する。 AMAは、複数のグループ内で音声と視覚の相互作用を実行し、オーディオキューに対する応答性に基づいて、グループ機能をコンパクトな表現に集約する。 UEは空間情報と時間情報を統合し、音状態の頻繁な変化に起因する高不確かさ領域を識別する。
論文参考訳（メタデータ） (2025-03-17T05:48:22Z)
Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文参考訳（メタデータ） (2024-08-25T04:56:08Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event Parser [34.19935635508947]
未探索のアンアライメント・セッティングについて検討し、そのゴールは、弱いラベルしか観測されていないビデオにおいて、音声や視覚イベントを認識することである。この挑戦的な環境での学習を強化するため、大規模で対照的に事前訓練されたモデルをモダリティ教師として組み込んだ。 VALOR(Visual-Audio Label Elaboration)と呼ばれる、シンプルで効果的で汎用的な手法は、トレーニングイベントのモダリティラベルを抽出するために革新されている。
論文参考訳（メタデータ） (2023-05-27T02:57:39Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention Estimation for Non-Profilic Faces [28.245662058349854]
本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
論文参考訳（メタデータ） (2022-07-07T02:23:02Z)
Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文参考訳（メタデータ） (2021-10-27T12:19:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。