論文の概要: MA-DPR: Manifold-aware Distance Metrics for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2509.13562v1
- Date: Tue, 16 Sep 2025 22:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.66062
- Title: MA-DPR: Manifold-aware Distance Metrics for Dense Passage Retrieval
- Title(参考訳): MA-DPR:Dense Passage Retrievalのためのmanifold-aware Distance Metrics
- Authors: Yifan Liu, Qianfeng Wen, Mark Zhao, Jiazhou Liang, Scott Sanner,
- Abstract要約: DPR(MA-DPR)のための多様体対応距離メートル法
以上の結果から,MA-DPRはEuclideanとcosineの距離を最大26%向上させることがわかった。
- 参考スコア(独自算出の注目度): 21.576774075150123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense Passage Retrieval (DPR) typically relies on Euclidean or cosine distance to measure query-passage relevance in embedding space, which is effective when embeddings lie on a linear manifold. However, our experiments across DPR benchmarks suggest that embeddings often lie on lower-dimensional, non-linear manifolds, especially in out-of-distribution (OOD) settings, where cosine and Euclidean distance fail to capture semantic similarity. To address this limitation, we propose a manifold-aware distance metric for DPR (MA-DPR) that models the intrinsic manifold structure of passages using a nearest neighbor graph and measures query-passage distance based on their shortest path in this graph. We show that MA-DPR outperforms Euclidean and cosine distances by up to 26% on OOD passage retrieval with comparable in-distribution performance across various embedding models while incurring a minimal increase in query inference time. Empirical evidence suggests that manifold-aware distance allows DPR to leverage context from related neighboring passages, making it effective even in the absence of direct semantic overlap. MADPR can be applied to a wide range of dense embedding and retrieval tasks, offering potential benefits across a wide spectrum of domains.
- Abstract(参考訳): DPR (Dense Passage Retrieval) は通常、埋め込み空間におけるクエリパスの関連性を測定するためにユークリッド距離または余弦距離に依存する。
しかし、DPRベンチマークを用いた実験により、埋め込みはしばしば低次元の非線形多様体、特にコサインとユークリッド距離が意味的類似性を捉えないOOD(out-of-distribution)設定に関係していることが示唆された。
この制限に対処するために, DPR (MA-DPR) のための多様体対応距離計量法を提案し, 最短経路に基づいて, 近接グラフを用いて経路の固有多様体構造をモデル化し, クエリ・パス距離を計測する。
また,MA-DPRは,OOD経路検索において最大26%の精度でEuclideanとcosine距離を上回り,様々な埋め込みモデルに匹敵する分散性能を示すとともに,クエリ推定時間の最小化を図っている。
経験的証拠は、多様体認識距離により、DPRは関連する近隣の通路からコンテキストを活用することができ、直接的な意味的重複がなくても有効であることを示している。
MADPRは、広範囲のドメインにまたがる潜在的な利点を提供する、広範囲の密着した埋め込みおよび検索タスクに適用することができる。
関連論文リスト
- Radial Neighborhood Smoothing Recommender System [0.0]
RNE(Radial Neighborhood Estimator)は、重複および部分的に重複したユーザとイテムのペアに基づいて近傍を構築するために提案される。
RNEは、既存の協調フィルタリングや行列分解法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-07-14T06:01:58Z) - GeoMM: On Geodesic Perspective for Multi-modal Learning [55.41612200877861]
本稿では,マルチモーダル学習における測地線距離を新しい距離測定基準として導入する。
我々のアプローチは、現在のマルチモーダル学習に測地距離を適用するための包括的な戦略を取り入れている。
論文 参考訳(メタデータ) (2025-05-16T13:12:41Z) - MPAD: A New Dimension-Reduction Method for Preserving Nearest Neighbors in High-Dimensional Vector Search [1.1701842638497677]
次元減少(DR)は、探索に不可欠な近傍構造を歪ませる傾向のため、ほとんど適用されない。
提案するMPAD: Maximum Pairwise Absolute differenceは、NNの近似関係を明示的に保存する教師なしDR法である。
複数の領域にまたがる実験により、MPADは近隣構造を保存する上で標準DR法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-04-23T00:59:00Z) - Scaling Riemannian Diffusion Models [68.52820280448991]
非自明な多様体上の高次元タスクにスケールできることを示す。
我々は、$SU(n)$格子上のQCD密度と高次元超球面上の対照的に学習された埋め込みをモデル化する。
論文 参考訳(メタデータ) (2023-10-30T21:27:53Z) - KERPLE: Kernelized Relative Positional Embedding for Length
Extrapolation [72.71398034617607]
KERPLEは、位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークである。
CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。
論文 参考訳(メタデータ) (2022-05-20T01:25:57Z) - Out-of-distribution Detection with Deep Nearest Neighbors [33.71627349163909]
アウト・オブ・ディストリビューション(OOD)検出は、オープンな世界で機械学習モデルをデプロイするための重要なタスクである。
本稿では,OOD検出における非パラメトリック近接距離の有効性について検討する。
いくつかのベンチマークで最寄りのOOD検出の有効性を実証し,優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-13T16:45:21Z) - Cycle Consistent Probability Divergences Across Different Spaces [38.43511529063335]
確率分布の相違は、統計的推測と機械学習の核心にある。
本研究は, 異方性, 異方性, 異方性, 異なる空間上の分布をマッチングするための, アンバランスなモンジュ最適輸送定式化を提案する。
論文 参考訳(メタデータ) (2021-11-22T16:35:58Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Diffusion Earth Mover's Distance and Distribution Embeddings [61.49248071384122]
拡散は$tildeo(n)$ timeで計算でき、ツリーベースのような同様の高速アルゴリズムよりも正確である。
拡散は完全微分可能であり、深層ニューラルネットワークのような勾配拡散フレームワークの将来の使用に適している。
論文 参考訳(メタデータ) (2021-02-25T13:18:32Z) - On Projection Robust Optimal Transport: Sample Complexity and Model
Misspecification [101.0377583883137]
射影ロバスト(PR)OTは、2つの測度の間のOTコストを最大化するために、射影可能な$k$次元部分空間を選択する。
私たちの最初の貢献は、PRワッサーシュタイン距離のいくつかの基本的な統計的性質を確立することである。
次に、部分空間を最適化するのではなく平均化することにより、PRW距離の代替として積分PRワッサーシュタイン距離(IPRW)を提案する。
論文 参考訳(メタデータ) (2020-06-22T14:35:33Z) - Theoretical Guarantees for Bridging Metric Measure Embedding and Optimal
Transport [18.61019008000831]
共役ユークリッド空間に計量測度空間を埋め込み、埋め込み分布上の最適輸送(OT)を計算する方法を考える。
このことは、ロバストなワッサーシュタイン距離(SERW)を埋め込む部分埋め込み(sub-embedding robust Wasserstein)と呼ばれるものにつながります。
論文 参考訳(メタデータ) (2020-02-19T17:52:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。