論文の概要: More Than Efficiency: Embedding Compression Improves Domain Adaptation in Dense Retrieval
- arxiv url: http://arxiv.org/abs/2601.13525v1
- Date: Tue, 20 Jan 2026 02:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.123238
- Title: More Than Efficiency: Embedding Compression Improves Domain Adaptation in Dense Retrieval
- Title(参考訳): エンベディング圧縮は、高密度検索におけるドメイン適応を改善する
- Authors: Chunsheng Zuo, Daniel Khashabi,
- Abstract要約: PCAはクエリの埋め込みにのみ適用され、モデルとデータセットのペアの75.4%でNDCG@10が改善された。
文書検索には事前学習した埋め込みを動力とするダンスレトリバーが広く用いられているが、専門ドメインでは苦労している。
- 参考スコア(独自算出の注目度): 27.685880546079982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrievers powered by pretrained embeddings are widely used for document retrieval but struggle in specialized domains due to the mismatches between the training and target domain distributions. Domain adaptation typically requires costly annotation and retraining of query-document pairs. In this work, we revisit an overlooked alternative: applying PCA to domain embeddings to derive lower-dimensional representations that preserve domain-relevant features while discarding non-discriminative components. Though traditionally used for efficiency, we demonstrate that this simple embedding compression can effectively improve retrieval performance. Evaluated across 9 retrievers and 14 MTEB datasets, PCA applied solely to query embeddings improves NDCG@10 in 75.4% of model-dataset pairs, offering a simple and lightweight method for domain adaptation.
- Abstract(参考訳): 文書検索には事前学習を施したデンスレトリバーが広く用いられているが、訓練と対象領域の分布のミスマッチのため、専門領域では苦戦している。
ドメイン適応は通常、高価なアノテーションとクエリドキュメントペアの再トレーニングを必要とします。
そこで本研究では, ドメイン埋め込みにPCAを適用することで, 非識別成分を廃棄しながら, ドメイン関連特徴を保存する低次元表現を導出する。
従来は効率向上に用いられてきたが,この単純な埋め込み圧縮は検索性能を効果的に向上させることができることを実証する。
9つのレトリバーと14のMTEBデータセットで評価され、クエリ埋め込みのみに適用されるPCAは、モデル-データセットペアの75.4%でNDCG@10を改善し、ドメイン適応のためのシンプルで軽量な方法を提供する。
関連論文リスト
- Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - MemSAC: Memory Augmented Sample Consistency for Large Scale Unsupervised
Domain Adaptation [71.4942277262067]
本稿では,ソースドメインとターゲットドメイン間のサンプルレベルの類似性を利用して識別的転送を実現するMemSACを提案する。
我々は,MemSACの有効性に関する詳細な分析と知見を提供する。
論文 参考訳(メタデータ) (2022-07-25T17:55:28Z) - Re-energizing Domain Discriminator with Sample Relabeling for
Adversarial Domain Adaptation [88.86865069583149]
Unsupervised Domain Adapt (UDA)メソッドは、ドメインの競合トレーニングを利用して、機能を調整してドメインのギャップを減らす。
本研究では,Re-enforceable Adversarial Domain Adaptation (RADA) と呼ばれる効率的な最適化戦略を提案する。
RADAは、動的ドメインラベルを使用して、トレーニング中にドメイン識別器を再活性化することを目指しています。
論文 参考訳(メタデータ) (2021-03-22T08:32:55Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z) - Towards Fair Cross-Domain Adaptation via Generative Learning [50.76694500782927]
ドメイン適応(DA)は、よくラベル付けされたソースドメイン上でトレーニングされたモデルを、異なる分散に横たわる未ラベルのターゲットドメインに適応することを目的としています。
本研究では,新規な生成的Few-shot Cross-Domain Adaptation (GFCA) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-03-04T23:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。