論文の概要: DREditor: An Time-efficient Approach for Building a Domain-specific
Dense Retrieval Model
- arxiv url: http://arxiv.org/abs/2401.12540v1
- Date: Tue, 23 Jan 2024 07:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:31:51.446505
- Title: DREditor: An Time-efficient Approach for Building a Domain-specific
Dense Retrieval Model
- Title(参考訳): DREditor:ドメイン固有度検索モデル構築のための時間効率なアプローチ
- Authors: Chen Huang, Duanyu Feng, Wenqiang Lei, Jiancheng Lv
- Abstract要約: DREditorは、市販の密集検索モデルのマッチングルールを特定のドメインに適合するように編集するために開発された。
時間効率は100~300倍向上し、検索性能は同等かそれ以上に向上する。
より広い文脈で、我々は検索タスクに新しい埋め込みキャリブレーション手法を導入するための第一歩を踏み出す。
- 参考スコア(独自算出の注目度): 28.776657540605452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying dense retrieval models efficiently is becoming increasingly
important across various industries. This is especially true for enterprise
search services, where customizing search engines to meet the time demands of
different enterprises in different domains is crucial. Motivated by this, we
develop a time-efficient approach called DREditor to edit the matching rule of
an off-the-shelf dense retrieval model to suit a specific domain. This is
achieved by directly calibrating the output embeddings of the model using an
efficient and effective linear mapping. This mapping is powered by an edit
operator that is obtained by solving a specially constructed least squares
problem. Compared to implicit rule modification via long-time finetuning, our
experimental results show that DREditor provides significant advantages on
different domain-specific datasets, dataset sources, retrieval models, and
computing devices. It consistently enhances time efficiency by 100-300 times
while maintaining comparable or even superior retrieval performance. In a
broader context, we take the first step to introduce a novel embedding
calibration approach for the retrieval task, filling the technical blank in the
current field of embedding calibration. This approach also paves the way for
building domain-specific dense retrieval models efficiently and inexpensively.
- Abstract(参考訳): 高密度検索モデルの効率的な展開は,様々な産業においてますます重要になっている。
これは、異なるドメインの異なる企業の時間需要を満たすために検索エンジンをカスタマイズする企業検索サービスにとって特に当てはまります。
そこで我々はDREditorと呼ばれる時間効率な手法を開発し、既成の高密度検索モデルのマッチングルールを特定のドメインに適合させる。
これは、効率的かつ効率的な線形写像を用いて、モデルの出力埋め込みを直接調整することで達成される。
このマッピングは、特別に構築された最小二乗問題を解くことで得られる編集演算子によって実現される。
長時間の微調整による暗黙のルール変更と比較すると,dreditorは異なるドメイン固有データセット,データセットソース,検索モデル,コンピューティングデバイスにおいて大きな利点をもたらす。
時間効率は100~300倍向上し、検索性能は同等かそれ以上に向上する。
より広い文脈において,我々は,新しい組込みキャリブレーション手法を導入するための第一歩として,組込みキャリブレーションの現在の分野における技術空白を埋める。
このアプローチは、ドメイン固有の高密度検索モデルを効率的かつ安価に構築する方法でもある。
関連論文リスト
- Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Combining Retrieval and Classification: Balancing Efficiency and Accuracy in Duplicate Bug Report Detection [2.522333180723133]
本稿では,時間効率と精度性能のバランスをとるために,変圧器を用いたシステムを提案する。
我々のシステムは、分類モデルに匹敵する精度を維持し、時間効率で大幅に向上し、検索モデルよりもわずかに遅れている。
論文 参考訳(メタデータ) (2024-04-23T10:06:19Z) - RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-15T07:50:15Z) - DG-TTA: Out-of-domain medical image segmentation through Domain Generalization and Test-Time Adaptation [43.842694540544194]
本稿では、ドメインの一般化とテスト時間適応を組み合わせることで、未確認対象領域で事前学習したモデルを再利用するための非常に効果的なアプローチを提案する。
本手法は,事前訓練した全身CTモデルと組み合わせることで,MR画像を高精度に分割できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T10:26:21Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - BitE : Accelerating Learned Query Optimization in a Mixed-Workload
Environment [0.36700088931938835]
BitEは、データベース統計とメタデータを使用して、学習したクエリをチューニングしてパフォーマンスを向上させる、新しいアンサンブル学習モデルである。
我々のモデルは従来の手法に比べて19.6%改善されたクエリと15.8%改善されたクエリを実現している。
論文 参考訳(メタデータ) (2023-06-01T16:05:33Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Domain-incremental Cardiac Image Segmentation with Style-oriented Replay
and Domain-sensitive Feature Whitening [67.6394526631557]
M&Mは、各受信データセットから漸進的に学習し、時間が経つにつれて改善された機能で漸進的に更新する必要がある。
医学的シナリオでは、データのプライバシのため、過去のデータへのアクセスや保存が一般的に許可されないため、これは特に困難である。
本稿では,まず過去のドメイン入力を復元し,モデル最適化中に定期的に再生する新しいドメイン増分学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-09T13:07:36Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - AutoAdapt: Automated Segmentation Network Search for Unsupervised Domain
Adaptation [4.793219747021116]
我々は、ドメイン適応のためのアーキテクチャレベルの視点と分析を提供するために、ニューラルアーキテクチャサーチ(NAS)を実行する。
本稿では,最大平均誤差と地域重み付きエントロピーを用いて,このギャップを埋めて精度を推定する手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T17:59:02Z) - AutoRC: Improving BERT Based Relation Classification Models via
Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。
最適なアーキテクチャとは何かという合意は得られない。
BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文 参考訳(メタデータ) (2020-09-22T16:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。