論文の概要: Robustness Risk of Conversational Retrieval: Identifying and Mitigating Noise Sensitivity in Qwen3-Embedding Model
- arxiv url: http://arxiv.org/abs/2604.06176v1
- Date: Tue, 03 Feb 2026 06:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.368098
- Title: Robustness Risk of Conversational Retrieval: Identifying and Mitigating Noise Sensitivity in Qwen3-Embedding Model
- Title(参考訳): 会話検索のロバスト性リスク:Qwen3埋め込みモデルにおける雑音感度の同定と緩和
- Authors: Weishu Chen, Zhouhui Hou, Mingjie Zhan, Zhicheng Zhao, Fei Su,
- Abstract要約: 会話設定下では、構造化された対話スタイルのノイズは不均等に検索可能になり、トップランクの検索結果に挿入される。
本稿では,検索行動の質的変化を促す軽量クエリにより,ノイズの侵入を効果的に抑制し,ランキング安定性を回復することを示す。
- 参考スコア(独自算出の注目度): 27.295457728639402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an empirical study of embedding-based retrieval under realistic conversational settings, where queries are short, dialogue-like, and weakly specified, and retrieval corpora contain structured conversational artifacts. Focusing on Qwen3-embedding models, we identify a deployment-relevant robustness vulnerability: under conversational retrieval without query prompting, structured dialogue-style noise can become disproportionately retrievable and intrude into top-ranked results, despite being semantically uninformative. This failure mode emerges consistently across model scales, remains largely invisible under standard clean-query benchmarks, and is significantly more pronounced in Qwen3 than in earlier Qwen variants and other widely used dense retrieval baselines. We further show that lightweight query prompting qualitatively alters retrieval behavior, effectively suppressing noise intrusion and restoring ranking stability. Our findings highlight an underexplored robustness risk in conversational retrieval and underscore the importance of evaluation protocols that reflect the complexities of deployed systems.
- Abstract(参考訳): 本稿では,現実的な会話環境下での埋め込み型検索の実証的研究を行い,クエリが短く,対話型で,弱い指定がなされ,検索コーパスには構造化された会話アーティファクトが含まれていることを示した。
Qwen3-embeddingモデルに注目すると、クエリのプロンプトを伴わない会話検索の下で、構造化された対話スタイルのノイズは、意味的に不定型であるにもかかわらず、不均等に検索可能となり、トップランクの検索結果に侵入する。
この障害モードはモデルスケールにわたって一貫して現れ、標準的なクリーンクエリのベンチマークではほとんど見えず、Qwen3では以前のQwen変種や他の広く使われている検索ベースラインよりも顕著に発音される。
さらに,検索行動の質的変化を促す軽量なクエリが,ノイズの侵入を効果的に抑制し,ランキング安定性を回復することを示す。
本研究は,会話検索におけるロバスト性リスクの低さを浮き彫りにして,運用システムの複雑さを反映した評価プロトコルの重要性を浮き彫りにした。
関連論文リスト
- SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise [11.887069140065774]
本稿では,音声クエリ検索のためのロバストネスベンチマークであるSQuTRを提案する。
SQuTRは、一般的に使用されている6つの英語と中国語のテキスト検索データセットから37,317のユニークなクエリを集約する。
提案手法は,代表的なケースドとエンド・ツー・エンドの検索システムに対して大規模な評価を行う。
論文 参考訳(メタデータ) (2026-02-13T10:08:27Z) - QUARK: Robust Retrieval under Non-Faithful Queries via Query-Anchored Aggregation [2.505352949111876]
QUARKは、非忠実なクエリの下で堅牢な検索を行うためのトレーニング不要のフレームワークである。
この設計により、QUIRKは堅牢性を犠牲にすることなくリコールとランキング品質を改善することができる。
論文 参考訳(メタデータ) (2026-01-28T21:14:49Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - Unsupervised dense retrieval with conterfactual contrastive learning [16.679649921935482]
そこで本研究では,高密度検索モデルの高感度化により,高密度検索モデルのロバスト性を向上させることを提案する。
この文脈での感度を達成するモデルは、クエリとの関連性を決定するドキュメントのキーパスが修正されたときに高いばらつきを示すべきである。
因果関係と反事実分析に動機付け, 一連の反事実正則化手法を提案する。
論文 参考訳(メタデータ) (2024-12-30T07:01:34Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。