論文の概要: To Be Multimodal or Not to Be: Query-Adaptive Audio-Visual Person Retrieval via Active Modality Detection
- arxiv url: http://arxiv.org/abs/2606.05931v1
- Date: Thu, 04 Jun 2026 09:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.696035
- Title: To Be Multimodal or Not to Be: Query-Adaptive Audio-Visual Person Retrieval via Active Modality Detection
- Title(参考訳): マルチモーダルかどうか:アクティブモダリティ検出によるクエリ適応型音声視覚人物検索
- Authors: Erfan Loweimi, Mengjie Qian, Kate Knill, Guanfeng Wu, Chi-Ho Chan, Abbas Haider, Muhammad Awan, Josef Kittler, Hui Wang, Mark Gales,
- Abstract要約: モダリティの欠如による楽譜はノイズを注入し、最高の単調システムよりも精度を低下させる。
クロスモーダルスコアの整合性によってアクティブなモダリティを検出するクエリ適応フレームワークを提案する。
BBC Rewind Corpusでは、適応システムは94.2%のP@1に達し、話者のみ(82.9%)、顔のみ(93.4%)、固定核融合(90.0%)を上回っている。
- 参考スコア(独自算出の注目度): 29.127141072949787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When retrieving a person from a video archive by voice and face, should the system be multimodal or not? In real-world broadcast archives, unlike curated benchmarks, a target may be heard but unseen, seen but unheard, or both. Fusing scores from an absent modality injects noise, degrading precision below the best unimodal system. We propose a query-adaptive framework that detects active modalities via cross-modal score consistency: when both modalities are active, files retrieved by one also score highly on the other; this agreement breaks down when a modality is absent. Classifiers driven by these cross-modal features achieve 89% detection accuracy. On the BBC Rewind corpus (with over 12,000 broadcast videos) the adaptive system attains 94.2% P@1, outperforming speaker-only (82.9%), face-only (93.4%), and fixed fusion (90.0%), recovering 64% of the gap to an oracle with ground-truth modality labels (96.6%).
- Abstract(参考訳): 音声と顔でビデオアーカイブから人物を検索する場合、システムはマルチモーダルであるべきか?
実世界の放送アーカイブでは、キュレートされたベンチマークとは異なり、ターゲットは耳を傾けるが見えない、見えない、耳が聞こえない、あるいはその両方をターゲットとすることができる。
モダリティの欠如による楽譜はノイズを注入し、最高の単調システムよりも精度を低下させる。
両モードがアクティブな場合、一方が検索したファイルは他方で高いスコアを付け、この合意はモダリティが欠落した場合に分解される。
これらのクロスモーダル機能によって駆動される分類器は、検出精度が89%に達する。
BBC Rewindコーパス(放送ビデオ12,000本以上)では、適応システムは94.2%のP@1を獲得し、話者のみ(82.9%)、顔のみ(93.4%)、固定核融合(90.0%)を達成し、基調のモダリティラベル(96.6%)を持つオラクルに64%のギャップを回復した。
関連論文リスト
- MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation [88.7702943548674]
マルチショットオーディオビデオ生成のための,初の総合的なベンチマークと適応型ハイブリッド評価フレームワークであるMSAVBenchを紹介する。
私たちのベンチマークでは、ビデオ、オーディオ、ショット、参照の4つの重要な領域にまたがっており、多様なタスク設定、最大15のショット数、非現実的なシナリオに挑戦しています。
MSAVBenchは人間の判断と高度に一致し、スピアマンのランク相関は91.5%に達する。
論文 参考訳(メタデータ) (2026-05-19T17:59:33Z) - Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities [2.5472580243871623]
本稿では,音声,顔,ジェスチャーのモダリティを統合した3モーダル人物識別フレームワークを提案する。
提案手法はマルチタスク学習を利用して各モータリティを独立に処理し,その後にクロスアテンションとゲート融合機構を付加する。
1、2つのモダリティが利用できない場合でも高い精度を保っていることを示す。
論文 参考訳(メタデータ) (2025-12-16T22:59:24Z) - The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition [95.95622220065884]
MISP 2025 Challengeは、ビデオモダリティをオーディオと組み合わせることで、マルチモーダル、マルチデバイスミーティングの書き起こしに焦点を当てている。
最高の性能のシステムはベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2025-05-20T06:11:51Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.7779568951268254]
本稿では,現在公開されているSaarbr"ucken Voice Databaseを用いた音声病理診断手法を提案する。
機械学習(ML)アルゴリズムを6つ評価する - サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoost。
アプローチは, 女性, 男性, 合計で85.61%, 84.69%, および85.22%であった。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport [3.903766260291157]
コマンド音声認識における話者適応(SA)に着目し,複数の情報源からのデータを利用できる。
最適トランスポートに基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。
話者非依存モデルに対して,コマンド誤り率を相対的に16%, 7%削減し, 最適な競合手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T14:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。