論文の概要: Beyond Benchmarks: Evaluating Embedding Model Similarity for Retrieval Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2407.08275v1
- Date: Thu, 11 Jul 2024 08:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:46:01.449023
- Title: Beyond Benchmarks: Evaluating Embedding Model Similarity for Retrieval Augmented Generation Systems
- Title(参考訳): ベンチマークを超えて: 検索拡張システムのための埋め込みモデル類似性の評価
- Authors: Laura Caspari, Kanishka Ghosh Dastidar, Saber Zerhoudi, Jelena Mitrovic, Michael Granitzer,
- Abstract要約: RAGシステムのコンテキストにおける埋め込みモデルの類似性を評価する。
5つのデータセットで、プロプライエタリなモデルを含む埋め込みモデルのさまざまなファミリを比較します。
プロプライエタリなモデルに対するオープンソース代替案を特定でき、MistralはOpenAIモデルに最もよく似ている。
- 参考スコア(独自算出の注目度): 0.9976432338233169
- License:
- Abstract: The choice of embedding model is a crucial step in the design of Retrieval Augmented Generation (RAG) systems. Given the sheer volume of available options, identifying clusters of similar models streamlines this model selection process. Relying solely on benchmark performance scores only allows for a weak assessment of model similarity. Thus, in this study, we evaluate the similarity of embedding models within the context of RAG systems. Our assessment is two-fold: We use Centered Kernel Alignment to compare embeddings on a pair-wise level. Additionally, as it is especially pertinent to RAG systems, we evaluate the similarity of retrieval results between these models using Jaccard and rank similarity. We compare different families of embedding models, including proprietary ones, across five datasets from the popular Benchmark Information Retrieval (BEIR). Through our experiments we identify clusters of models corresponding to model families, but interestingly, also some inter-family clusters. Furthermore, our analysis of top-k retrieval similarity reveals high-variance at low k values. We also identify possible open-source alternatives to proprietary models, with Mistral exhibiting the highest similarity to OpenAI models.
- Abstract(参考訳): 組込みモデルの選択は、検索拡張生成(RAG)システムの設計における重要なステップである。
利用可能なオプションの膨大な量を考えると、類似したモデルのクラスタを特定することで、このモデル選択プロセスの合理化が図られる。
ベンチマークのパフォーマンススコアのみに頼れば、モデル類似性の弱い評価しかできない。
そこで本研究では,RAGシステムにおける埋め込みモデルの類似性を評価する。
私たちはCentered Kernel Alignmentを使って、ペアレベルの埋め込みを比較する。
さらに、RAGシステムに特に関係しているため、Jaccardとランク類似度を用いて、これらのモデル間の検索結果の類似性を評価する。
私たちは、人気の高いBenchmark Information Retrieval(BEIR)の5つのデータセットに対して、プロプライエタリなものを含む、埋め込みモデルの異なるファミリーを比較します。
実験を通して、モデルファミリに対応するモデルのクラスタを同定するが、興味深いことに、いくつかのファミリー間クラスタも同定する。
さらに、トップk検索類似性の解析により、低k値での高分散が明らかとなる。
また、プロプライエタリなモデルに対するオープンソース代替案も特定でき、MistralはOpenAIモデルと最もよく似ている。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究では、異なるデータシナリオ下で異なるモデルを評価する上で、一貫性のあるメトリクスがどのように存在するかを検討する。
バイナリ分類タスクの場合、有病率の影響を受けない評価指標は、異なるモデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。
提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。
本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文 参考訳(メタデータ) (2023-05-09T02:01:07Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Likelihood-free Model Choice for Simulator-based Models with the
Jensen--Shannon Divergence [0.9884867402204268]
JSD-Razorと呼ばれる可能性のない設定に対する一貫したスコアリング基準を導出する。
JSD-Razorと確率ベースアプローチの確立された評価基準との関係を解析した。
論文 参考訳(メタデータ) (2022-06-08T18:16:00Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - Equivalence of Segmental and Neural Transducer Modeling: A Proof of
Concept [56.46135010588918]
RNN-Transducerモデルとセグメントモデル(直接HMM)の広く使われているクラスが等価であることを証明する。
空白確率はセグメント長確率に変換され,その逆も示された。
論文 参考訳(メタデータ) (2021-04-13T11:20:48Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Semi-nonparametric Latent Class Choice Model with a Flexible Class
Membership Component: A Mixture Model Approach [6.509758931804479]
提案したモデルは、従来のランダムユーティリティ仕様に代わるアプローチとして混合モデルを用いて潜在クラスを定式化する。
その結果,混合モデルにより潜在クラス選択モデル全体の性能が向上した。
論文 参考訳(メタデータ) (2020-07-06T13:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。