論文の概要: $\texttt{AVROBUSTBENCH}$: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time
- arxiv url: http://arxiv.org/abs/2506.00358v1
- Date: Sat, 31 May 2025 02:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.798513
- Title: $\texttt{AVROBUSTBENCH}$: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time
- Title(参考訳): $\texttt{AVROBUSTBENCH}$:テスト時間における音声認識モデルのロバストさのベンチマーク
- Authors: Sarthak Kumar Maharana, Saksham Singh Kushwaha, Baoming Zhang, Adrian Rodriguez, Songtao Wei, Yapeng Tian, Yunhui Guo,
- Abstract要約: 我々は、音声視覚認識モデルの試験時間ロバスト性を評価するために設計された総合的なベンチマークである$textttAVROBUSTBENCH$を紹介した。
$textttAVROBUSTBENCH$は、4つのオーディオ視覚ベンチマークデータセット、$textttAUDIOSET-2C$、$texttVGGSOUND-2C$、$texttKINETICS-2C$、$textttEPICKITCHENS-2C$からなる。
- 参考スコア(独自算出の注目度): 23.81367498622535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent audio-visual models have demonstrated impressive performance, their robustness to distributional shifts at test-time remains not fully understood. Existing robustness benchmarks mainly focus on single modalities, making them insufficient for thoroughly assessing the robustness of audio-visual models. Motivated by real-world scenarios where shifts can occur $\textit{simultaneously}$ in both audio and visual modalities, we introduce $\texttt{AVROBUSTBENCH}$, a comprehensive benchmark designed to evaluate the test-time robustness of audio-visual recognition models. $\texttt{AVROBUSTBENCH}$ comprises four audio-visual benchmark datasets, $\texttt{AUDIOSET-2C}$, $\texttt{VGGSOUND-2C}$, $\texttt{KINETICS-2C}$, and $\texttt{EPICKITCHENS-2C}$, each incorporating 75 bimodal audio-visual corruptions that are $\textit{co-occurring}$ and $\textit{correlated}$. Through extensive evaluations, we observe that state-of-the-art supervised and self-supervised audio-visual models exhibit declining robustness as corruption severity increases. Furthermore, online test-time adaptation (TTA) methods, on $\texttt{VGGSOUND-2C}$ and $\texttt{KINETICS-2C}$, offer minimal improvements in performance under bimodal corruptions. We further propose $\texttt{AV2C}$, a simple TTA approach enabling on-the-fly cross-modal fusion by penalizing high-entropy samples, which achieves improvements on $\texttt{VGGSOUND-2C}$. We hope that $\texttt{AVROBUSTBENCH}$ will steer the development of more effective and robust audio-visual TTA approaches. Our code is available $\href{https://github.com/sarthaxxxxx/AV-C-Robustness-Benchmark}{here}$.
- Abstract(参考訳): 最近のオーディオ視覚モデルでは印象的な性能を示しているが、テスト時の分布シフトに対する頑健さは十分に理解されていない。
既存のロバスト性ベンチマークは主に単一モダリティに焦点を当てており、オーディオ視覚モデルのロバスト性を徹底的に評価するには不十分である。
実世界のシナリオでは、オーディオと視覚の両モードにおいて、シフトが発生する可能性がある。$\textt{AVROBUSTBENCH}$は、オーディオ視覚認識モデルのテスト時間ロバスト性を評価するために設計された包括的なベンチマークである。
$\texttt{AVROBUSTBENCH}$は、4つのオーディオ-視覚ベンチマークデータセット、$\textt{AUDIOSET-2C}$、$\textt{VGGSOUND-2C}$、$\textt{KINETICS-2C}$、$\textt{EPICKITCHENS-2C}$、$\textit{co-occurring}$と$\textit{correlated}$からなる。
広汎な評価により,最先端の教師付き・自己監督型オーディオ視覚モデルでは,汚職重大度の増加に伴いロバスト性が低下することが明らかとなった。
さらに、$\texttt{VGGSOUND-2C}$と$\texttt{KINETICS-2C}$のオンラインテスト時間適応(TTA)メソッドは、バイモーダルな汚職下でのパフォーマンスを最小限に改善する。
さらに、高エントロピーサンプルをペナライズすることで、オンザフライでのクロスモーダル融合を可能にするシンプルなTTAアプローチである$\texttt{AV2C}$を提案し、$\texttt{VGGSOUND-2C}$の改善を実現する。
私たちは$\texttt{AVROBUSTBENCH}$が、より効果的で堅牢なオーディオ視覚的TTAアプローチの開発を後押ししてくれることを期待しています。
私たちのコードは$\href{https://github.com/sarthaxxxxx/AV-C-Robustness-Benchmark}{here}$で利用可能です。
関連論文リスト
- Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - Exploiting Pre-trained Models for Drug Target Affinity Prediction with Nearest Neighbors [58.661454334877256]
薬物-標的結合親和性(DTA)予測は、薬物発見に不可欠である。
DTA予測へのディープラーニング手法の適用にもかかわらず、達成された精度は依然として準最適である。
事前学習したDTA予測モデルに適用した非表現埋め込みに基づく検索手法である$k$NN-DTAを提案する。
論文 参考訳(メタデータ) (2024-07-21T15:49:05Z) - Inertial Confinement Fusion Forecasting via Large Language Models [48.76222320245404]
本研究では,従来の貯水池計算パラダイムとLarge Language Models(LLM)の新たな統合である$textbfLPI-LLM$を紹介する。
我々は、$textitLLM-anchored Reservoir$, augmented with a $textitFusion-specific Prompt$を提案する。
また、最初の$textttLPI$ベンチマークである$textbfLPI4AI$も提示します。
論文 参考訳(メタデータ) (2024-07-15T05:46:44Z) - Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models [22.425339110551743]
我々は,テストタイムの欲求検索として,大規模言語モデルのアライメントをフレーミングする,$textitweak-to-strong検索を導入する。
制御された知覚生成と要約では、チューニングされていない$textttgpt2$sを使用して、追加のトレーニングなしで大規模モデルのアライメントを改善する。
より難しい命令追従ベンチマークでは、市販の小型モデルの再利用により、ホワイトボックスモデルとブラックボックスモデルの両方の長制御された勝利率を改善することが示されている。
論文 参考訳(メタデータ) (2024-05-29T16:55:32Z) - On the Clean Generalization and Robust Overfitting in Adversarial Training from Two Theoretical Views: Representation Complexity and Training Dynamics [38.44734564565478]
この現象をクリーン・ジェネリゼーションとロバスト・オーバーフィッティング(CGRO)と呼ぶ。
本稿では,2つの視点から,CGRO現象について考察する。
本研究では,学習過程中に3段階の位相遷移が起こり,ネットワークが確実に頑健な記憶体制に収束することを示す。
論文 参考訳(メタデータ) (2023-06-02T05:07:42Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。