論文の概要: Adapting General-Purpose Embedding Models to Private Datasets Using Keyword-based Retrieval
- arxiv url: http://arxiv.org/abs/2506.00363v1
- Date: Sat, 31 May 2025 03:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.7995
- Title: Adapting General-Purpose Embedding Models to Private Datasets Using Keyword-based Retrieval
- Title(参考訳): キーワードベース検索を用いた汎用埋め込みモデルのプライベートデータセットへの適応
- Authors: Yubai Wei, Jiale Han, Yi Yang,
- Abstract要約: BMEmbedは、汎用テキスト埋め込みモデルをプライベートデータセットに適用するための新しい手法である。
モデル適応を容易にするために,キーワードベースの検索結果のランキングからスーパーバイザリー信号を構築する。
我々は、BMEmbedをさまざまな領域、データセット、モデルにまたがって評価し、検索性能が一貫した改善を示した。
- 参考スコア(独自算出の注目度): 19.57735892785756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text embedding models play a cornerstone role in AI applications, such as retrieval-augmented generation (RAG). While general-purpose text embedding models demonstrate strong performance on generic retrieval benchmarks, their effectiveness diminishes when applied to private datasets (e.g., company-specific proprietary data), which often contain specialized terminology and lingo. In this work, we introduce BMEmbed, a novel method for adapting general-purpose text embedding models to private datasets. By leveraging the well-established keyword-based retrieval technique (BM25), we construct supervisory signals from the ranking of keyword-based retrieval results to facilitate model adaptation. We evaluate BMEmbed across a range of domains, datasets, and models, showing consistent improvements in retrieval performance. Moreover, we provide empirical insights into how BM25-based signals contribute to improving embeddings by fostering alignment and uniformity, highlighting the value of this approach in adapting models to domain-specific data. We release the source code available at https://github.com/BaileyWei/BMEmbed for the research community.
- Abstract(参考訳): テキスト埋め込みモデルは、検索強化世代(RAG)のようなAIアプリケーションにおいて、基礎的な役割を果たす。
汎用テキスト埋め込みモデルはジェネリック検索ベンチマークにおいて高い性能を示すが、その効果はプライベートデータセット(例えば、企業固有のプロプライエタリデータ)に適用した場合に低下する。
本稿では,BMEmbedについて紹介する。BMEmbedは,汎用テキスト埋め込みモデルをプライベートデータセットに適用するための新しい手法である。
確立されたキーワードベース検索手法(BM25)を活用することで,キーワードベース検索結果のランキングから監視信号を構築し,モデル適応を容易にする。
我々は、BMEmbedをさまざまな領域、データセット、モデルにまたがって評価し、検索性能が一貫した改善を示した。
さらに、BM25ベースの信号が、整合性や均一性を育み、埋め込みの改善にどのように貢献するかを実証的に把握し、ドメイン固有のデータにモデルを適用する際のこのアプローチの価値を強調した。
研究コミュニティ向けのソースコードはhttps://github.com/BaileyWei/BMEmbedで公開しています。
関連論文リスト
- Similarity-Based Domain Adaptation with LLMs [13.692329347889212]
教師なしのドメイン適応は、様々なソースドメインからの豊富なラベル付きデータを活用し、ラベルなしのターゲットデータに一般化する。
本稿では,Large Language Models(LLM)の印象的な一般化機能をターゲットデータアノテーションに活用する,シンプルなフレームワークを提案する。
我々のフレームワークは,SOTA法と比較して2.44%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-03-07T09:51:07Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Exploring Category Structure with Contextual Language Models and Lexical
Semantic Networks [0.0]
我々は、典型値の予測のために、CLMを探索するためのより広い範囲の手法を試験する。
BERTを用いた実験では,CLMプローブの適切な利用の重要性が示された。
その結果, この課題における多義性の重要性が浮き彫りとなった。
論文 参考訳(メタデータ) (2023-02-14T09:57:23Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。