論文の概要: On the Theoretical Limitations of Embedding-Based Retrieval
- arxiv url: http://arxiv.org/abs/2508.21038v1
- Date: Thu, 28 Aug 2025 17:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.54105
- Title: On the Theoretical Limitations of Embedding-Based Retrieval
- Title(参考訳): 埋め込み型検索の理論的限界について
- Authors: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee,
- Abstract要約: クエリの結果として返却可能なドキュメントの上位kサブセットの数は,埋め込みの次元によって制限されていることを示す。
次に、LIMITと呼ばれる現実的なデータセットを作成し、これらの理論結果に基づいてモデルをテストする。
我々の研究は、既存の単一ベクトルパラダイムの下での埋め込みモデルの限界を示している。
- 参考スコア(独自算出の注目度): 15.77068335900085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector embeddings have been tasked with an ever-increasing set of retrieval tasks over the years, with a nascent rise in using them for reasoning, instruction-following, coding, and more. These new benchmarks push embeddings to work for any query and any notion of relevance that could be given. While prior works have pointed out theoretical limitations of vector embeddings, there is a common assumption that these difficulties are exclusively due to unrealistic queries, and those that are not can be overcome with better training data and larger models. In this work, we demonstrate that we may encounter these theoretical limitations in realistic settings with extremely simple queries. We connect known results in learning theory, showing that the number of top-k subsets of documents capable of being returned as the result of some query is limited by the dimension of the embedding. We empirically show that this holds true even if we restrict to k=2, and directly optimize on the test set with free parameterized embeddings. We then create a realistic dataset called LIMIT that stress tests models based on these theoretical results, and observe that even state-of-the-art models fail on this dataset despite the simple nature of the task. Our work shows the limits of embedding models under the existing single vector paradigm and calls for future research to develop methods that can resolve this fundamental limitation.
- Abstract(参考訳): ベクトル埋め込みは、何年もの間、ますます増加する検索タスクをこなしており、推論、命令追従、コーディングなどに使われるようになった。
これらの新しいベンチマークは、埋め込みをどんなクエリでも動作させ、関連するあらゆる概念を付与する。
以前の研究ではベクトル埋め込みの理論的限界が指摘されているが、これらの困難は非現実的なクエリによるものであり、より良いトレーニングデータやより大きなモデルでは克服できないという仮定が一般的である。
本研究は, 極めて単純なクエリによる現実的な設定において, これらの理論的制約に遭遇する可能性を実証する。
我々は学習理論において既知の結果を結合し、あるクエリの結果として返却できる文書の上位kサブセットの数は埋め込みの次元によって制限されていることを示す。
k=2に制限してもこれは成り立つことを実証的に示し、自由パラメータ化埋め込みでテストセットを直接最適化する。
次に、LIMITと呼ばれる現実的なデータセットを作成し、これらの理論的結果に基づいてモデルをテストし、タスクの単純な性質に関わらず、最先端のモデルでさえこのデータセットで失敗するのを観察します。
我々の研究は、既存の単一ベクトルパラダイムの下での埋め込みモデルの限界を示し、この基本的な制限を解決する方法の開発を将来の研究に求めている。
関連論文リスト
- LoRanPAC: Low-rank Random Features and Pre-trained Models for Bridging Theory and Practice in Continual Learning [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Rethinking Document-Level Relation Extraction: A Reality Check [14.59603835395313]
この分野を詳しく見て、これらのパフォーマンス向上が実際に真実かどうかを確認します。
典型的なDocREモデルのロバスト性を調べるために,4種類のエンティティ参照攻撃を構築した。
この結果,現在のDocREモデルのほとんどはエンティティ参照攻撃に対して脆弱であり,現実のエンドユーザーNLPアプリケーションにデプロイすることは困難であることが判明した。
論文 参考訳(メタデータ) (2023-06-15T08:47:42Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors [58.340159346749964]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Can convolutional ResNets approximately preserve input distances? A
frequency analysis perspective [31.897568775099558]
正規化スキームとbi-Lipschitznessの理論的関係は、実際には成り立たない条件下でのみ有効であることを示す。
距離保存条件に対する逆例を探索する簡単な構成的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-04T13:12:42Z) - Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream
Data? A Theoretical Analysis [12.188482172898656]
pretext-based self-supervised learningは、ラベルのないデータに対して手作りのpretextタスクを通じて意味表現を学ぶことを目的としている。
citetlee 2020predictingは、前提文に基づく自己教師付き学習が条件付き独立(ci)下で下流タスクのサンプル複雑性を効果的に低減できることを証明する。
CI条件を保持するために,学習可能な関数を入力に適用するアイデアを検討する。
論文 参考訳(メタデータ) (2021-03-05T09:53:10Z) - Exploring the Limits of Few-Shot Link Prediction in Knowledge Graphs [49.6661602019124]
数発のリンク予測を行うため,本手法の現況を一般化したモデルスペクトルについて検討する。
単純なゼロショットベースライン – 関係性固有の情報を無視する – が驚くほど高いパフォーマンスを実現しているのが分かります。
慎重に構築された合成データセットの実験では、関係の例がいくつかあるだけで、モデルがきめ細かな構造情報を使用するのを基本的に制限することが示されている。
論文 参考訳(メタデータ) (2021-02-05T21:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。