論文の概要: The Curse of Dense Low-Dimensional Information Retrieval for Large Index
Sizes
- arxiv url: http://arxiv.org/abs/2012.14210v1
- Date: Mon, 28 Dec 2020 12:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:08:40.868102
- Title: The Curse of Dense Low-Dimensional Information Retrieval for Large Index
Sizes
- Title(参考訳): 大きなインデックスサイズに対する高密度低次元情報検索の呪い
- Authors: Nils Reimers and Iryna Gurevych
- Abstract要約: 指数の大きさを増加させるため,密度表現の性能はスパース表現よりも速く低下することを示す。
極端な場合、これは特定のインデックスサイズの疎表現が密な表現を上回るような先端点につながることもある。
- 参考スコア(独自算出の注目度): 61.78092651347371
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Information Retrieval using dense low-dimensional representations recently
became popular and showed out-performance to traditional sparse-representations
like BM25. However, no previous work investigated how dense representations
perform with large index sizes. We show theoretically and empirically that the
performance for dense representations decreases quicker than sparse
representations for increasing index sizes. In extreme cases, this can even
lead to a tipping point where at a certain index size sparse representations
outperform dense representations. We show that this behavior is tightly
connected to the number of dimensions of the representations: The lower the
dimension, the higher the chance for false positives, i.e. returning irrelevant
documents.
- Abstract(参考訳): 近年,密集した低次元表現を用いた情報検索が普及し,BM25のような従来のスパース表現に優れていた。
しかし、密度表現が大きなインデックスサイズでどのように振る舞うか、以前の研究は調査されなかった。
指数の大きさを増加させるため,密度表現の性能はスパース表現よりも速く低下することを示す。
極端なケースでは、あるインデックスサイズでスパース表現が密接な表現よりも優れるティッピングポイントに繋がることもある。
この挙動は表現の次元の数(次元が小さいほど、偽陽性の確率が高くなる)と強く結びついていることを示している。
無関係な書類を返します
関連論文リスト
- "Why Here and Not There?" -- Diverse Contrasting Explanations of
Dimensionality Reduction [75.97774982432976]
本稿では,次元削減のためのコントラスト説明の概念を紹介する。
本稿では,この概念を二次元データ可視化の具体的応用に適用する。
論文 参考訳(メタデータ) (2022-06-15T08:54:39Z) - No Parameter Left Behind: How Distillation and Model Size Affect
Zero-Shot Retrieval [4.712097135437801]
本稿では,検索モデルの一般化能力において,パラメータの数と初期クエリ文書間相互作用が重要な役割を担っていることを示す。
実験の結果, モデルサイズの増加はドメイン内テストセットの限界ゲインをもたらすが, ファインチューニング中に見つからなかった新しいドメインでは, はるかに大きなゲインが得られることがわかった。
我々の最大のリランカーは、ベンチマーク-IR(BEIR)の18のデータセットのうち12の領域で最先端に到達し、これまでの最先端を平均3ポイント上回っている。
論文 参考訳(メタデータ) (2022-06-06T19:56:14Z) - Compressibility of Distributed Document Representations [0.0]
CoReは表現圧縮に適した表現学習者に依存しないフレームワークである。
文脈的および非文脈的文書表現、異なる圧縮レベル、および9つの異なる圧縮アルゴリズムを考慮すると、CoReの振る舞いを示す。
10万以上の圧縮実験に基づく結果から、CoReは圧縮効率と性能の非常に良いトレードオフを提供することを示している。
論文 参考訳(メタデータ) (2021-10-14T17:56:35Z) - Conditional probing: measuring usable information beyond a baseline [103.93673427217527]
ある表現が、その表現がベースライン表現を探索するよりも高い精度を生成する場合、その表現がプロパティを符号化することを示唆する。
本稿では,ベースライン内の情報に対して明示的に条件を定め,条件付き探索を提案する。
ケーススタディでは、非文脈単語埋め込みを条件付けした後、部分音声のような特性がネットワークの深い層でアクセス可能であることが判明した。
論文 参考訳(メタデータ) (2021-09-19T21:56:58Z) - On Single and Multiple Representations in Dense Passage Retrieval [30.303705563808386]
単一の表現と複数の表現の2つの密度の高い検索ファミリが明らかになってきた。
本稿では,各手法が互いにw.r.t,w.r.t,BM25ベースラインをそれぞれ実行している状況について,それらの比較効果を直接研究する。
また、複数の表現は、BM25や定義クエリにとって最も難しいクエリに対して、単一の表現よりも改善されていることを示す。
論文 参考訳(メタデータ) (2021-08-13T15:01:53Z) - GNNAutoScale: Scalable and Expressive Graph Neural Networks via
Historical Embeddings [51.82434518719011]
GNNAutoScale(GAS)は、任意のメッセージパスGNNを大規模グラフにスケールするためのフレームワークである。
ガスは、前回のトレーニングの繰り返しから過去の埋め込みを利用して計算グラフのサブツリー全体を掘り起こします。
ガスは大規模グラフ上で最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2021-06-10T09:26:56Z) - UHD-BERT: Bucketed Ultra-High Dimensional Sparse Representations for
Full Ranking [3.8637577198874182]
ニューラルモデルの緻密な表現の力は非効率なコストで得られ、再ランクとしての使用を制限する。
直接制御可能な空間性を備えた超高次元(UHD)表現方式を提案する。
我々のモデルであるUHD-BERTは、BERT言語モデリングに基づく超高次元スパース表現の利点を最大化する。
論文 参考訳(メタデータ) (2021-04-15T02:00:01Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。