論文の概要: The Curse of Dense Low-Dimensional Information Retrieval for Large Index
Sizes
- arxiv url: http://arxiv.org/abs/2012.14210v1
- Date: Mon, 28 Dec 2020 12:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:08:40.868102
- Title: The Curse of Dense Low-Dimensional Information Retrieval for Large Index
Sizes
- Title(参考訳): 大きなインデックスサイズに対する高密度低次元情報検索の呪い
- Authors: Nils Reimers and Iryna Gurevych
- Abstract要約: 指数の大きさを増加させるため,密度表現の性能はスパース表現よりも速く低下することを示す。
極端な場合、これは特定のインデックスサイズの疎表現が密な表現を上回るような先端点につながることもある。
- 参考スコア(独自算出の注目度): 61.78092651347371
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Information Retrieval using dense low-dimensional representations recently
became popular and showed out-performance to traditional sparse-representations
like BM25. However, no previous work investigated how dense representations
perform with large index sizes. We show theoretically and empirically that the
performance for dense representations decreases quicker than sparse
representations for increasing index sizes. In extreme cases, this can even
lead to a tipping point where at a certain index size sparse representations
outperform dense representations. We show that this behavior is tightly
connected to the number of dimensions of the representations: The lower the
dimension, the higher the chance for false positives, i.e. returning irrelevant
documents.
- Abstract(参考訳): 近年,密集した低次元表現を用いた情報検索が普及し,BM25のような従来のスパース表現に優れていた。
しかし、密度表現が大きなインデックスサイズでどのように振る舞うか、以前の研究は調査されなかった。
指数の大きさを増加させるため,密度表現の性能はスパース表現よりも速く低下することを示す。
極端なケースでは、あるインデックスサイズでスパース表現が密接な表現よりも優れるティッピングポイントに繋がることもある。
この挙動は表現の次元の数(次元が小さいほど、偽陽性の確率が高くなる)と強く結びついていることを示している。
無関係な書類を返します
関連論文リスト
- Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。
提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文 参考訳(メタデータ) (2024-10-12T15:10:56Z) - Useful Compact Representations for Data-Fitting [0.0]
我々はベクトルの選択によってパラメータ化される新しいコンパクト表現を開発し、特別な選択のために既存のよく知られた公式に還元する。
本研究では, 大規模固有値計算, テンソル因子分解, 非線形回帰に対するコンパクト表現の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T19:43:00Z) - Implications of sparsity and high triangle density for graph
representation learning [67.98498239263549]
近年の研究では、多くの三角形を含むスパースグラフは、ノードの有限次元表現を用いて再現できないことが示されている。
ここでは、ノード表現が低次元多様体上にある無限次元内積モデルを用いてそのようなグラフを再現できることを示す。
論文 参考訳(メタデータ) (2022-10-27T09:15:15Z) - Learning-Based Dimensionality Reduction for Computing Compact and
Effective Local Feature Descriptors [101.62384271200169]
特徴の形でのイメージパッチの独特な表現は多くのコンピュータビジョンとロボティクスのタスクの重要な構成要素である。
マルチ層パーセプトロン(MLP)を用いて,低次元ながら高品質な記述子を抽出する。
視覚的ローカライゼーション、パッチ検証、画像マッチング、検索など、さまざまなアプリケーションについて検討する。
論文 参考訳(メタデータ) (2022-09-27T17:59:04Z) - "Why Here and Not There?" -- Diverse Contrasting Explanations of
Dimensionality Reduction [75.97774982432976]
本稿では,次元削減のためのコントラスト説明の概念を紹介する。
本稿では,この概念を二次元データ可視化の具体的応用に適用する。
論文 参考訳(メタデータ) (2022-06-15T08:54:39Z) - Compressibility of Distributed Document Representations [0.0]
CoReは表現圧縮に適した表現学習者に依存しないフレームワークである。
文脈的および非文脈的文書表現、異なる圧縮レベル、および9つの異なる圧縮アルゴリズムを考慮すると、CoReの振る舞いを示す。
10万以上の圧縮実験に基づく結果から、CoReは圧縮効率と性能の非常に良いトレードオフを提供することを示している。
論文 参考訳(メタデータ) (2021-10-14T17:56:35Z) - On Single and Multiple Representations in Dense Passage Retrieval [30.303705563808386]
単一の表現と複数の表現の2つの密度の高い検索ファミリが明らかになってきた。
本稿では,各手法が互いにw.r.t,w.r.t,BM25ベースラインをそれぞれ実行している状況について,それらの比較効果を直接研究する。
また、複数の表現は、BM25や定義クエリにとって最も難しいクエリに対して、単一の表現よりも改善されていることを示す。
論文 参考訳(メタデータ) (2021-08-13T15:01:53Z) - Minimizing FLOPs to Learn Efficient Sparse Representations [36.24540913526988]
密度埋め込みと類似の表現能力を持つ高次元およびスパース表現を学習する。
我々のアプローチは他のベースラインと競合し、実用的なデータセット上で同様の、あるいはより優れたスピードvs精度のトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-04-12T18:09:02Z) - NCVis: Noise Contrastive Approach for Scalable Visualization [79.44177623781043]
NCVisはノイズコントラスト推定の音響統計的基礎の上に構築された高性能次元減少法である。
NCVisは,他の手法の表現品質を保ちながら,速度の観点から最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-30T15:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。