論文の概要: Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion
- arxiv url: http://arxiv.org/abs/2602.03817v1
- Date: Tue, 03 Feb 2026 18:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.638126
- Title: Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion
- Title(参考訳): オーディオ時空間融合における適応的エビデンス重み付け
- Authors: Oscar Ovanger, Levi Harris, Timothy H. Keitt,
- Abstract要約: 生物音響分類では、音波信号と、位置と季節としての文脈の両方から種識別が推測される。
本稿では,事前学習したテキスト音声分類器と時間的予測器を統合した適応型対数線形エビデンス融合フレームワークFINCHを紹介する。
FINCHは固定重融合とオーディオのみのベースラインを一貫して上回り、堅牢性とエラーのトレードオフを改善している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce \textbf{F}usion under \textbf{IN}dependent \textbf{C}onditional \textbf{H}ypotheses (\textbf{FINCH}), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family \emph{contains} the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \texttt{\href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{anonymous-repository}}
- Abstract(参考訳): 多くの機械学習システムは、同じ予測対象に対する複数の証拠源にアクセスするが、これらの情報源は、入力間で信頼性と情報性が異なることが多い。
生物音響分類では、種識別は音響信号と位置や季節のような時空間的文脈の両方から推定されるが、ベイズ推定は乗法的証拠の組み合わせを動機付けている。
本稿では,事前学習した音声分類器と時空間予測器を統合した適応型対数線形エビデンス融合フレームワークである, \textbf{F}usionを, \textbf{IN}dependent \textbf{C}onditional \textbf{H}ypotheses (\textbf{FINCH})の下で導入する。
FINCHは、不確実性と情報性統計からコンテキスト情報の信頼性を推定するサンプルごとのゲーティング関数を学習する。
結果として生じる融合族 \emph{contains は、音声のみの分類器を特別な場合とし、文脈的証拠の影響を明示的に制限し、解釈可能な音声のみのフォールバックを持つリスクを含む仮説クラスを生成する。
ベンチマーク全体では、FINCHは固定重融合とオーディオのみのベースラインを一貫して上回り、コンテキスト情報が分離されていない場合でも堅牢性とエラーのトレードオフを改善している。
我々は、軽量で解釈可能なエビデンスベースのアプローチを用いて、CBIにおける最先端のパフォーマンスと、BirdSetのいくつかのサブセットにおける競合的、あるいは改善されたパフォーマンスを実現する。
コードは以下の通りである。 \texttt{\href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{anonymous-Repository}}
関連論文リスト
- VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio [1.0791267046450075]
VocSimは、凍結埋め込みの固有の幾何学的アライメントを探索するトレーニング不要のベンチマークである。
VocSimは、人間のスピーチ、動物の発声、環境音にまたがる19のコーパスから125万のソースクリップを集約する。
論文 参考訳(メタデータ) (2025-12-10T22:13:12Z) - FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。
FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。
本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文 参考訳(メタデータ) (2025-04-22T07:40:35Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。