論文の概要: VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.04573v1
- Date: Fri, 5 Jul 2024 15:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:01:09.266126
- Title: VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models
- Title(参考訳): VRSD:大規模言語モデルにおける検索の類似性と多様性の再考
- Authors: Hang Gao, Yongfeng Zhang,
- Abstract要約: 本稿では,検索過程における類似性と多様性の制約を特徴付ける新しい手法を提案する。
本稿では,アルゴリズムのベクトル検索と類似性と多様性(VRSD)について述べる。
- 参考スコア(独自算出の注目度): 43.53494041932615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector retrieval algorithms are vital for semantic queries in the evolving landscape of Large Language Models (LLMs). Retrieving vectors that simultaneously meet criteria for both similarity and diversity significantly enhances the capabilities of LLM-based agents. Despite the widespread use of the Maximal Marginal Relevance (MMR) in retrieval scenarios with relevance and diversity requirements, fluctuations caused by variations in the parameter $ \lambda $ within the MMR complicate the determination of the optimization trajectory in vector spaces, thus obscuring the direction of enhancement. Moreover, there is a lack of a robust theoretical analysis for the constraints of similarity and diversity in retrieval processes. This paper introduces a novel approach to characterizing both constraints through the relationship between the sum vector and the query vector. The proximity of these vectors addresses the similarity constraint, while necessitating that individual vectors within the sum vector divergently align with the query vector to satisfy the diversity constraint. We also formulate a new combinatorial optimization challenge, taking a selection of $k$ vectors from a set of candidates such that their sum vector maximally aligns with the query vector, a problem we demonstrate to be NP-complete. This establishes the profound difficulty of pursuing similarity and diversity simultaneously in vector retrieval and lays a theoretical groundwork for further research. Additionally, we present the heuristic algorithm Vectors Retrieval with Similarity and Diversity (VRSD) which not only has a definitive optimization goal and eschews the need for preset parameters but also offers a modest reduction in time complexity compared to MMR. Empirical validation further confirm that VRSD significantly surpasses MMR across various datasets.
- Abstract(参考訳): ベクトル検索アルゴリズムは,Large Language Models (LLMs) の進化するランドスケープにおいて,セマンティッククエリに不可欠である。
類似性と多様性の両方の基準を同時に満たすベクトルの検索は、LLMベースのエージェントの能力を著しく向上させる。
関連性や多様性の要件を持つ検索シナリオにおいてMMR(Maximal Marginal Relevance)が広く使用されているにもかかわらず、MMR内のパラメータの変動によって引き起こされる変動は、ベクトル空間における最適化軌道の決定を複雑にし、拡張の方向を隠蔽する。
さらに,検索過程における類似性と多様性の制約について,ロバストな理論的解析が欠如している。
本稿では,和ベクトルと問合せベクトルの関係を通して,両制約を特徴付ける新しい手法を提案する。
これらのベクトルの近接は類似性制約に対処する一方で、和ベクトル内の個々のベクトルは、多様性制約を満たすためにクエリベクトルと分岐的に整合する必要がある。
また、その和ベクトルがクエリベクトルと最大整合するような候補の集合から$k$ベクトルを選択することで、新たな組合せ最適化の課題を定式化し、NP完全であることを示す。
このことは、ベクトル検索において、類似性と多様性を同時に追求することの難しさを確立し、さらなる研究のための理論的な基礎を築いた。
さらに,本アルゴリズムでは,最適化目標が決定的であるだけでなく,パラメータの事前設定の必要性も考慮し,MMRと比較して時間的複雑さを緩和する。
実証的な検証により、VRSDが様々なデータセットでMMRを大幅に上回っていることが確認された。
関連論文リスト
- Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - A unified consensus-based parallel ADMM algorithm for high-dimensional
regression with combined regularizations [3.280169909938912]
並列交互乗算器 (ADMM) は大規模分散データセットの処理に有効であることが広く認識されている。
提案アルゴリズムは,財務事例の信頼性,安定性,スケーラビリティを示す。
論文 参考訳(メタデータ) (2023-11-21T03:30:38Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Error Bounds for Learning with Vector-Valued Random Features [2.375038919274297]
本稿では,ベクトル値ランダム特徴量(RF)を用いた学習の包括的誤り解析を提供する。
この理論は、完全な無限次元入力出力設定におけるRFリッジ回帰のために開発された。
論文 参考訳(メタデータ) (2023-05-26T18:00:08Z) - Multivariate Representation Learning for Information Retrieval [31.31440742912932]
本稿では,高密度検索のための新しい表現学習フレームワークを提案する。
クエリやドキュメント毎にベクトルを学習する代わりに、我々のフレームワークは多変量分布を学習する。
近似した近似近似アルゴリズムにシームレスに統合できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:30:46Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Complexity Measures for Multi-objective Symbolic Regression [2.4087148947930634]
多目的的シンボリック回帰は、学習したモデルの精度が最大化される一方で、その複雑さが自動的に適応されるという利点がある。
NSGA-IIを用いて多目的最適化を行う場合, シンボリック回帰においてどの複雑性尺度が最適に使用されるかを検討する。
論文 参考訳(メタデータ) (2021-09-01T08:22:41Z) - Accurate and fast matrix factorization for low-rank learning [4.435094091999926]
高精度な部分特異値分解(SVD)と巨大な行列の数値ランク推定に関する2つの重要な課題に取り組みます。
我々は、これらの目標を達成するために、Golub-Kahanの対角化プロセスやRitzベクトルなどのクリロフ部分空間の概念を使用します。
論文 参考訳(メタデータ) (2021-04-21T22:35:02Z) - High-Dimensional Quadratic Discriminant Analysis under Spiked Covariance
Model [101.74172837046382]
そこで本研究では,魚の識別比を最大化する2次分類手法を提案する。
数値シミュレーションにより,提案した分類器は,合成データと実データの両方において古典的R-QDAよりも優れるだけでなく,計算量の削減も要求されることがわかった。
論文 参考訳(メタデータ) (2020-06-25T12:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。