論文の概要: Speaker Retrieval in the Wild: Challenges, Effectiveness and Robustness
- arxiv url: http://arxiv.org/abs/2504.18950v2
- Date: Tue, 29 Apr 2025 09:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.060548
- Title: Speaker Retrieval in the Wild: Challenges, Effectiveness and Robustness
- Title(参考訳): 野生における話者検索 : 課題,有効性,ロバスト性
- Authors: Erfan Loweimi, Mengjie Qian, Kate Knill, Mark Gales,
- Abstract要約: 本稿では,「野生」に発達した話者検索システムの課題,解決方法,有効性,堅牢性について検討する。
公立のBBCリウインドアーカイブ(1948年-1979年)に焦点をあてる
筆者らの枠組みは, 内容や音響条件を制御せずに, 広範かつおそらく老朽化したアーカイブ上での話者検索の幅広い課題に対処する。
- 参考スコア(独自算出の注目度): 10.437946797207228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing abundance of publicly available or company-owned audio/video archives, highlighting the increasing importance of efficient access to desired content and information retrieval from these archives. This paper investigates the challenges, solutions, effectiveness, and robustness of speaker retrieval systems developed "in the wild" which involves addressing two primary challenges: extraction of task-relevant labels from limited metadata for system development and evaluation, as well as the unconstrained acoustic conditions encountered in the archive, ranging from quiet studios to adverse noisy environments. While we focus on the publicly-available BBC Rewind archive (spanning 1948 to 1979), our framework addresses the broader issue of speaker retrieval on extensive and possibly aged archives with no control over the content and acoustic conditions. Typically, these archives offer a brief and general file description, mostly inadequate for specific applications like speaker retrieval, and manual annotation of such large-scale archives is unfeasible. We explore various aspects of system development (e.g., speaker diarisation, embedding extraction, query selection) and analyse the challenges, possible solutions, and their functionality. To evaluate the performance, we conduct systematic experiments in both clean setup and against various distortions simulating real-world applications. Our findings demonstrate the effectiveness and robustness of the developed speaker retrieval systems, establishing the versatility and scalability of the proposed framework for a wide range of applications beyond the BBC Rewind corpus.
- Abstract(参考訳): 公開あるいは企業所有のオーディオ/ビデオアーカイブが多数存在し、これらのアーカイブから望ましいコンテンツへの効率的なアクセスの重要性と情報検索の重要性が強調されている。
本稿では,システム開発と評価のための限られたメタデータからタスク関連ラベルを抽出することと,静かなスタジオから悪騒音環境まで,アーカイブ内で発生する制約のない音響条件について,その2つの課題に対処することを目的とした,話者検索システムの課題,ソリューション,有効性,堅牢性について検討する。
一般に公開されているBBC Rewindアーカイブ(1948年から1979年まで)に焦点をあてる一方で、我々のフレームワークは、内容や音響条件を制御せずに、広範かつおそらく老朽化したアーカイブ上の話者検索の問題に対処する。
通常、これらのアーカイブは簡潔で一般的なファイル記述を提供しており、主に話者検索のような特定のアプリケーションには不適切であり、そのような大規模なアーカイブのマニュアルアノテーションは実現不可能である。
システム開発(話者ダイアリゼーション,埋め込み抽出,クエリ選択など)のさまざまな側面を調査し,課題や可能なソリューション,その機能を分析する。
性能を評価するため,クリーンセットアップと実世界の応用をシミュレートする様々な歪みに対して,系統的な実験を行った。
提案手法の有効性とロバスト性を実証し,提案手法をBBC Rewind コーパスを超えて幅広いアプリケーションに適用するための汎用性と拡張性を確立した。
関連論文リスト
- Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - The language of sound search: Examining User Queries in Audio Search Engines [0.2455468619225742]
テキストベースの音声検索システムの設計における現実世界のユーザニーズと振る舞いについて、研究は不十分に対処する。
このギャップを埋めるために、カスタムサーベイとFreesound Webサイトクエリログという、2つのソースからの検索クエリを分析しました。
その結果,調査クエリは一般にFreesoundクエリよりも長いことが示唆され,システム制約によって制限されない場合,ユーザが詳細なクエリを好むことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:24:13Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Audio Anti-Spoofing Detection: A Survey [7.3348524333159]
ディープラーニングは、Deepfakeとして知られるマルチメディアフェイクコンテンツを操作または作成できる洗練されたアルゴリズムを生み出した。
防汚対策の開発を促進するため, 防汚対策の音響的課題が編成されている。
本稿では,アルゴリズムアーキテクチャ,最適化手法,アプリケーション一般化性,評価指標,パフォーマンス比較,利用可能なデータセット,オープンソース可用性など,検出パイプライン内のすべてのコンポーネントについて,包括的なレビューを行う。
論文 参考訳(メタデータ) (2024-04-22T06:52:12Z) - Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。
本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - Multi-encoder attention-based architectures for sound recognition with
partial visual assistance [14.160670979300628]
この問題に対処するために,マルチエンコーダフレームワークを使用できることを示す。
提案するモデル拡張は,部分的に利用可能な視覚情報を組み込むのに有効であることを示す。
論文 参考訳(メタデータ) (2022-09-26T16:32:33Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。