論文の概要: VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.04573v2
- Date: Thu, 14 Nov 2024 18:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:46.391547
- Title: VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models
- Title(参考訳): VRSD:大規模言語モデルにおける検索の類似性と多様性の再考
- Authors: Hang Gao, Yongfeng Zhang,
- Abstract要約: ベクトル検索アルゴリズムは、大規模言語モデルにおける急速に進化するランドスケープ内のセマンティッククエリーに不可欠である。
本稿では,和ベクトルと問合せベクトルの関係から,両制約を特徴付ける新しい手法を提案する。
本稿では,VRSDの類似性と多様性を考慮したベクトル検索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 43.53494041932615
- License:
- Abstract: Vector retrieval algorithms are essential for semantic queries within the rapidly evolving landscape of Large Language Models (LLMs). The ability to retrieve vectors that satisfy both similarity and diversity criteria substantially enhances the performance of LLMs. Although Maximal Marginal Relevance (MMR) is widely employed in retrieval scenarios requiring relevance and diversity, variations in the parameter $\lambda$ lead to fluctuations that complicate the optimization trajectory in vector spaces. This obscures the direction of improvement and highlights the lack of a robust theoretical analysis regarding similarity and diversity constraints in retrieval processes. To address these challenges, this paper introduces a novel approach that characterizes both constraints through the relationship between the sum vector and the query vector. The proximity of these vectors ensures the similarity constraint, while requiring individual vectors within the sum vector to diverge in their alignment with the query vector satisfies the diversity constraint. We first formulate a new combinatorial optimization problem, selecting k vectors from a candidate set such that their sum vector maximally aligns with the query vector, and demonstrate that this problem is NP-complete. This result underscores the inherent difficulty of simultaneously achieving similarity and diversity in vector retrieval, thereby providing a theoretical foundation for future research. Subsequently, we present the heuristic algorithm Vectors Retrieval with Similarity and Diversity, VRSD, which features a clear optimization objective and eliminates the need for preset parameters. VRSD also achieves a modest reduction in time complexity compared to MMR. Empirical validation confirms that VRSD significantly outperforms MMR across various datasets.
- Abstract(参考訳): ベクトル検索アルゴリズムは,Large Language Models (LLMs) の急速に進化するランドスケープ内でのセマンティッククエリに不可欠である。
類似性と多様性基準の両方を満たすベクトルを検索する能力はLLMの性能を大幅に向上させる。
MMR(Maximal Marginal Relevance)は、関連性や多様性を必要とする検索シナリオで広く使われているが、パラメータの$\lambda$の変動は、ベクトル空間の最適化軌道を複雑にする変動を引き起こす。
このことは、改善の方向性を曖昧にし、検索プロセスにおける類似性と多様性の制約に関する堅牢な理論的分析の欠如を強調している。
これらの課題に対処するため,本論文では,和ベクトルと問合せベクトルの関係を通して制約を特徴付ける新しい手法を提案する。
これらのベクトルの近接は類似性制約を確実にするが、和ベクトル内の個々のベクトルは、クエリベクトルとのアライメントが多様性制約を満たすように分岐する必要がある。
まず新しい組合せ最適化問題を定式化し、その和ベクトルがクエリベクトルと最大に整合するように候補集合からkベクトルを選択し、この問題がNP完全であることを実証する。
この結果は,ベクトル検索における類似性と多様性を同時に達成することの難しさを浮き彫りにし,将来の研究の理論的基盤を提供する。
次に,VRSDの類似性と多様性を考慮したヒューリスティックアルゴリズムVectors Retrievalを提案する。
VRSDはまた、MMRと比較して時間の複雑さをわずかに減少させる。
経験的検証により、VRSDは様々なデータセットでMMRを著しく上回っていることが確認される。
関連論文リスト
- Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - A unified consensus-based parallel ADMM algorithm for high-dimensional
regression with combined regularizations [3.280169909938912]
並列交互乗算器 (ADMM) は大規模分散データセットの処理に有効であることが広く認識されている。
提案アルゴリズムは,財務事例の信頼性,安定性,スケーラビリティを示す。
論文 参考訳(メタデータ) (2023-11-21T03:30:38Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Error Bounds for Learning with Vector-Valued Random Features [2.375038919274297]
本稿では,ベクトル値ランダム特徴量(RF)を用いた学習の包括的誤り解析を提供する。
この理論は、完全な無限次元入力出力設定におけるRFリッジ回帰のために開発された。
論文 参考訳(メタデータ) (2023-05-26T18:00:08Z) - Multivariate Representation Learning for Information Retrieval [31.31440742912932]
本稿では,高密度検索のための新しい表現学習フレームワークを提案する。
クエリやドキュメント毎にベクトルを学習する代わりに、我々のフレームワークは多変量分布を学習する。
近似した近似近似アルゴリズムにシームレスに統合できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:30:46Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Complexity Measures for Multi-objective Symbolic Regression [2.4087148947930634]
多目的的シンボリック回帰は、学習したモデルの精度が最大化される一方で、その複雑さが自動的に適応されるという利点がある。
NSGA-IIを用いて多目的最適化を行う場合, シンボリック回帰においてどの複雑性尺度が最適に使用されるかを検討する。
論文 参考訳(メタデータ) (2021-09-01T08:22:41Z) - Accurate and fast matrix factorization for low-rank learning [4.435094091999926]
高精度な部分特異値分解(SVD)と巨大な行列の数値ランク推定に関する2つの重要な課題に取り組みます。
我々は、これらの目標を達成するために、Golub-Kahanの対角化プロセスやRitzベクトルなどのクリロフ部分空間の概念を使用します。
論文 参考訳(メタデータ) (2021-04-21T22:35:02Z) - High-Dimensional Quadratic Discriminant Analysis under Spiked Covariance
Model [101.74172837046382]
そこで本研究では,魚の識別比を最大化する2次分類手法を提案する。
数値シミュレーションにより,提案した分類器は,合成データと実データの両方において古典的R-QDAよりも優れるだけでなく,計算量の削減も要求されることがわかった。
論文 参考訳(メタデータ) (2020-06-25T12:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。