論文の概要: Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2602.03306v2
- Date: Sat, 07 Feb 2026 10:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 14:34:06.114747
- Title: Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval
- Title(参考訳): 難易度検索のための問合せ型適応次元選択の学習
- Authors: Zhanyu Wu, Richong Zhang, Zhijie Nie,
- Abstract要約: クエリアウェア適応次元選択フレームワークを提案する。
まず、教師付きレバレンスラベルを用いて、埋め込み次元よりも重要な次元を構築し、次に、これらのラベルに埋め込まれた重要度スコアにクエリを埋め込むように予測器を訓練する。
推測において、予測子は、擬似関連フィードバックなしで、クエリ埋め込みのみに基づく類似性のために、ディメンションのクエリ対応サブセットを選択する。
- 参考スコア(独自算出の注目度): 37.24586920652237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrieval represents queries and documents as high-dimensional embeddings, but these representations can be redundant at the query level: for a given information need, only a subset of dimensions is consistently helpful for ranking. Prior work addresses this via pseudo-relevance feedback (PRF) based dimension importance estimation, which can produce query-aware masks without labeled data but often relies on noisy pseudo signals and heuristic test-time procedures. In contrast, supervised adapter methods leverage relevance labels to improve embedding quality, yet they learn global transformations shared across queries and do not explicitly model query-aware dimension importance. We propose a Query-Aware Adaptive Dimension Selection framework that \emph{learns} to predict per-dimension importance directly from query embedding. We first construct oracle dimension importance distributions over embedding dimensions using supervised relevance labels, and then train a predictor to map a query embedding to these label-distilled importance scores. At inference, the predictor selects a query-aware subset of dimensions for similarity computation based solely on the query embedding, without pseudo-relevance feedback. Experiments across multiple dense retrievers and benchmarks show that our learned dimension selector improves retrieval effectiveness over the full-dimensional baseline as well as PRF-based masking and supervised adapter baselines.
- Abstract(参考訳): センス検索は、クエリとドキュメントを高次元の埋め込みとして表現するが、これらの表現はクエリレベルで冗長になりうる。
従来の作業では、擬似関連フィードバック(PRF)に基づく次元重要度推定によってこの問題に対処しており、ラベル付きデータなしでクエリ対応マスクを作成できるが、しばしばノイズの多い擬似信号やヒューリスティックなテストタイムプロシージャに依存している。
対照的に、教師付きアダプタメソッドは、関連ラベルを活用して埋め込み品質を改善するが、クエリ間で共有されるグローバルな変換を学習し、クエリ対応の次元の重要性を明示的にモデル化しない。
本稿では,クエリの埋め込みからクエリごとの重要度を直接予測する,クエリ対応型適応次元選択フレームワークを提案する。
まず、教師付きレバレンスラベルを用いて、埋め込み次元上のオラクル次元の重要度分布を構築し、次に、これらのラベルを蒸留した重要度スコアに埋め込まれたクエリをマップするように予測器を訓練する。
推測において、予測子は、擬似関連フィードバックなしで、クエリ埋め込みのみに基づく類似性計算のための次元のクエリ対応サブセットを選択する。
複数の高密度検索器とベンチマークを用いた実験により、学習次元選択器は、PRFベースのマスキングや教師付きアダプタベースラインと同様に、全次元ベースライン上での検索効率を向上させることが示された。
関連論文リスト
- Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views [24.456069497637035]
高次元空間におけるベクトル類似度探索(VSS)は,次世代データベースシステムにおけるコア機能として急速に発展しつつある。
最近のベンチマークでは、主に距離メトリクスのみによって定義された基本真実に対するリコールレイテンシトレードオフに基づいてVSSを評価している。
我々は、現実的なアプリケーションコンテキストにおけるVSSメソッドのエンドツーエンド評価のための総合ベンチマークスイートであるIcebergを紹介する。
論文 参考訳(メタデータ) (2025-12-15T04:49:33Z) - Evaluating Embedding Models and Pipeline Optimization for AI Search Quality [0.0]
我々は,AI駆動検索システムにおける各種テキスト埋め込みモデルとパイプライン構成の性能を評価する。
11,975対のクエリチャンクペアのカスタム評価データセットを,米国市議会の会議記録から合成した。
論文 参考訳(メタデータ) (2025-11-27T09:09:39Z) - ECLIPSE: Contrastive Dimension Importance Estimation with Pseudo-Irrelevance Feedback for Dense Retrieval [14.72046677914345]
近年のInformation Retrievalは、高次元埋め込み空間を活用して、関連文書の検索を改善している。
これらの高次元表現にもかかわらず、クエリに関連する文書は、低次元のクエリ依存多様体に存在する。
本稿では,関連文書と非関連文書の両方からの情報を活用することによって,これらの制約に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T15:45:06Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - Improving significance of binary black hole mergers in Advanced LIGO
data using deep learning : Confirmation of GW151216 [0.0]
地中重力波(GW)観測所のデータから二元ブラックホール(BBH)の融合を探索するための機械学習(ML)に基づく新しい手法を提案する。
これは、最初のGWトランジェントカタログ(GWTC-1)のCBCを復元するだけでなく、GW151216をクリーンに検出する最初のMLベースの探索である。
論文 参考訳(メタデータ) (2020-10-16T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。