論文の概要: Context-Aware Search and Retrieval Under Token Erasure
- arxiv url: http://arxiv.org/abs/2604.18424v1
- Date: Mon, 20 Apr 2026 15:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.977923
- Title: Context-Aware Search and Retrieval Under Token Erasure
- Title(参考訳): トークン消去下における文脈認識検索と検索
- Authors: Sara Ghasvarianjahromi, Joshua Barr, Yauhen Yakimenka, Jörg Kliewer,
- Abstract要約: 本稿では,トークン消去下でのRAG様システムの検索・検索モデルを紹介し,解析する。
本稿では,クエリ表現が部分的にしか保存されていない場合に,リモート文書検索の情報理論解析を行う。
- 参考スコア(独自算出の注目度): 10.728269379368099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces and analyzes a search and retrieval model for RAG-like systems under {token} erasures. We provide an information-theoretic analysis of remote document retrieval when query representations are only partially preserved. The query is represented using term-frequency-based features, and semantically adaptive redundancy is assigned according to feature importance. Retrieval is performed using TF-IDF-weighted similarity. We characterize the retrieval error probability by showing that the vector of similarity margins converges to a multivariate Gaussian distribution, yielding an explicit approximation and computable upper bounds. Numerical results support the analysis, while a separate data-driven evaluation using embedding-based retrieval on real-world data shows that the same importance-aware redundancy principles extend to modern retrieval pipelines. Overall, the results show that assigning higher redundancy to semantically important query features improves retrieval reliability.
- Abstract(参考訳): 本稿では, トーケン消去条件下でのRAG系システムの検索・検索モデルを紹介し, 解析する。
本稿では,クエリ表現が部分的にしか保存されていない場合に,リモート文書検索の情報理論解析を行う。
クエリは項周波数ベースの特徴を用いて表現され、特徴量に応じて意味的に適応的な冗長性が割り当てられる。
TF-IDF重み付き類似度を用いて検索を行う。
類似性マージンのベクトルが多変量ガウス分布に収束し、明示的な近似と計算可能な上界が得られることを示すことにより、検索誤差確率を特徴づける。
実世界のデータに対する埋め込みに基づく検索を用いた別のデータ駆動による評価は、同じ重要性を意識した冗長性原理が現代の検索パイプラインに拡張されていることを示している。
その結果,意味的に重要なクエリ機能に高い冗長性を割り当てることにより,検索の信頼性が向上した。
関連論文リスト
- Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - Rethinking Deep Research from the Perspective of Web Content Distribution Matching [86.90255285277256]
WeDasは,検索空間の構造的特徴をエージェントの観察空間に組み込んだWebコンテンツ配信アウェアフレームワークである。
本稿では,Query-Result Alignment Scoreを反復的に推定する数ショットの探索機構を提案する。
プラグイン・アンド・プレイモジュールとして、WeDasは4つのベンチマークのサブゴール補完と精度を一貫して改善している。
論文 参考訳(メタデータ) (2026-03-07T14:51:17Z) - Context-Aware Search and Retrieval Over Erasure Channels [12.794591022795355]
本稿では,シンボル消去チャネル上で動作している遠隔文書検索システムの情報理論解析について述べる。
提案モデルは、言語コーパスの項周波数重みから導かれるクエリの特徴ベクトルを符号化する。
我々は、検索誤差確率、すなわち、より類似の少ない文書が選択される確率の明示的な式を導出する。
論文 参考訳(メタデータ) (2025-07-16T04:21:46Z) - pEBR: A Probabilistic Approach to Embedding Based Retrieval [9.186585413958769]
埋め込みベースの検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
我々は,textbfprobabilistic textbfEmbedding-textbfBased textbfRetrieval (textbfpEBR) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。