論文の概要: Advancing Similarity Search with GenAI: A Retrieval Augmented Generation Approach
- arxiv url: http://arxiv.org/abs/2501.04006v1
- Date: Tue, 03 Dec 2024 09:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 08:46:22.206280
- Title: Advancing Similarity Search with GenAI: A Retrieval Augmented Generation Approach
- Title(参考訳): GenAIによる類似性検索の促進:検索用拡張ジェネレーションアプローチ
- Authors: Jean Bertin,
- Abstract要約: 本稿では、類似性検索に革新的な検索拡張手法を提案する。
提案手法は、生成モデルを用いてニュアンス付き意味情報を捕捉し、高度な文脈理解に基づく類似度スコアを検索する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This article introduces an innovative Retrieval Augmented Generation approach to similarity search. The proposed method uses a generative model to capture nuanced semantic information and retrieve similarity scores based on advanced context understanding. The study focuses on the BIOSSES dataset containing 100 pairs of sentences extracted from the biomedical domain, and introduces similarity search correlation results that outperform those previously attained on this dataset. Through an in-depth analysis of the model sensitivity, the research identifies optimal conditions leading to the highest similarity search accuracy: the results reveals high Pearson correlation scores, reaching specifically 0.905 at a temperature of 0.5 and a sample size of 20 examples provided in the prompt. The findings underscore the potential of generative models for semantic information retrieval and emphasize a promising research direction to similarity search.
- Abstract(参考訳): 本稿では、類似性検索に革新的な検索拡張手法を提案する。
提案手法は、生成モデルを用いてニュアンス付き意味情報を捕捉し、高度な文脈理解に基づく類似度スコアを検索する。
本研究は, バイオメディカルドメインから抽出した100対の文を含むBIOSSESデータセットに着目し, これまでに得られた文よりも優れた類似性検索相関結果を提案する。
モデル感度の詳細な分析を通じて、最も類似度の高い探索精度につながる最適条件を特定し、その結果、Pearson相関スコアが高く、0.5の温度で0.905に達し、プロンプトで提供されるサンプルサイズが20であることを示す。
本研究は,意味情報検索のための生成モデルの可能性を強調し,類似性検索に対する有望な研究方向性を強調した。
関連論文リスト
- Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - Sample Complexity Bounds for Score-Matching: Causal Discovery and
Generative Modeling [82.36856860383291]
我々は,標準深部ReLUニューラルネットワークをトレーニングすることにより,スコア関数の正確な推定が可能であることを実証した。
スコアマッチングに基づく因果発見手法を用いて因果関係の回復の誤差率の限界を確立する。
論文 参考訳(メタデータ) (2023-10-27T13:09:56Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Heterogeneous Datasets for Federated Survival Analysis Simulation [6.489759672413373]
本研究では、既存の非フェデレーションデータセットから再現可能な方法で開始することで、現実的な異種データセットを構築する新しい手法を提案する。
具体的には、ディリクレ分布に基づく2つの新しいデータセット分割アルゴリズムを提供し、各データサンプルを慎重に選択したクライアントに割り当てる。
提案手法の実装は,フェデレートされた環境をシミュレートしてサバイバル分析を行うことを推奨し,広く普及している。
論文 参考訳(メタデータ) (2023-01-28T11:37:07Z) - UNIMIB at TREC 2021 Clinical Trials Track [2.840363325289377]
この貢献は、UNIMIBチームのTREC 2021臨床試験トラックへの参加を要約している。
本研究では,クエリ表現と複数の検索モデルの組み合わせが検索性能に与える影響について検討した。
論文 参考訳(メタデータ) (2022-07-27T13:39:30Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Neural sentence embedding models for semantic similarity estimation in
the biomedical domain [6.325814141416726]
PubMed Open Accessデータセットから170万の記事に対して、さまざまなニューラル埋め込みモデルをトレーニングしました。
人手による注釈付き100の文対を含むバイオメディカル・ベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2021-10-01T13:27:44Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。