論文の概要: SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise
- arxiv url: http://arxiv.org/abs/2602.12783v1
- Date: Fri, 13 Feb 2026 10:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.919549
- Title: SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise
- Title(参考訳): SQuTR:音響雑音下でのテキスト検索のためのロバスト性ベンチマーク
- Authors: Yuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang,
- Abstract要約: 本稿では,音声クエリ検索のためのロバストネスベンチマークであるSQuTRを提案する。
SQuTRは、一般的に使用されている6つの英語と中国語のテキスト検索データセットから37,317のユニークなクエリを集約する。
提案手法は,代表的なケースドとエンド・ツー・エンドの検索システムに対して大規模な評価を行う。
- 参考スコア(独自算出の注目度): 11.887069140065774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.
- Abstract(参考訳): スポットクエリ検索は、現代の情報検索において重要なインタラクションモードである。
しかし、既存の評価データセットは制約された雑音条件下での単純なクエリに限られることが多く、複雑な音響摂動下での音声クエリ検索システムの堅牢性を評価するには不十分である。
この制限に対処するために、大規模データセットと統一評価プロトコルを含む音声クエリ検索のための堅牢性ベンチマークであるSQuTRを提案する。
SQuTRは、一般的に使用されている6つの英語と中国語のテキスト検索データセットから37,317のユニークなクエリを集約し、複数のドメインと多様なクエリタイプにまたがる。
我々は,200人の実話者の音声プロファイルを用いて音声を合成し,制御されたSNRレベルの下で実環境騒音の17カテゴリを混合し,静かから高雑音の条件下で再現可能な頑健性評価を可能にする。
統一されたプロトコルの下では,提案手法を用いて,提案手法を大規模に評価する。
実験結果から, ノイズの増加に伴い検索性能が低下し, システム間での低下が著しく異なることがわかった。
大規模な検索モデルでさえ極端なノイズの下で苦労しており、ロバスト性は依然として重要なボトルネックであることを示している。
全体として、SQuTRは、ベンチマークと診断分析のための再現可能なテストベッドを提供し、音声クエリによるテキスト検索における堅牢性の研究を促進する。
関連論文リスト
- SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search [5.4593658173370985]
大規模なテキストイメージデータセットは、ミスマッチしたペアから生成される。
既存の手法はしばしばノイズを増幅する負のサンプルに焦点を当てる。
動的不確実性共起・アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-10T08:35:36Z) - Efficient Conversational Search via Topical Locality in Dense Retrieval [9.38751103209178]
我々は、応答時間を改善するために、会話クエリに固有のトピックの局所性を利用する。
クエリの埋め込み類似性を活用することで,検索空間を意味的に関連するドキュメントクラスタに動的に制限する。
その結果,提案システムは複雑なマルチターンクエリを高い精度と効率で効果的に処理できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T10:56:34Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。