論文の概要: UnIte: Uncertainty-based Iterative Document Sampling for Domain Adaptation in Information Retrieval
- arxiv url: http://arxiv.org/abs/2604.25142v1
- Date: Tue, 28 Apr 2026 02:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.676252
- Title: UnIte: Uncertainty-based Iterative Document Sampling for Domain Adaptation in Information Retrieval
- Title(参考訳): UnIte: 情報検索におけるドメイン適応のための不確実性に基づく反復的文書サンプリング
- Authors: Jongyoon Kim, Minseong Hwang, Seung-won Hwang,
- Abstract要約: 教師なしドメイン適応は、ターゲットドメイン文書に擬似クエリを生成することにより、ニューラルネットワークを未知のドメインに一般化する。
既存の文書サンプリング手法は多様性に重点を置いているが、モデルの不確実性を捉えることができない。
これらの制限に対処するため、**Un**certainty-based **Ite**rative Document Sampling (UnIte)を提案する。
- 参考スコア(独自算出の注目度): 36.357482144933336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised domain adaptation generalizes neural retrievers to an unseen domain by generating pseudo queries on target domain documents. The quality and efficiency of this adaptation critically depend on which documents are selected for pseudo query generation. The existing document sampling method focuses on diversity but fails to capture model uncertainty. In contrast, we propose **Un**certainty-based **Ite**rative Document Sampling (UnIte) addressing these limitations by (1) filtering documents with high aleatoric uncertainty and (2) prioritizing those with high epistemic uncertainty, maximizing the learning utility of the current model. We conducted extensive experiments on a large corpus of BEIR with small and large models, showing significant gains of +2.45 and +3.49 nDCG@10 with a smaller training sample size, 4k on average.
- Abstract(参考訳): 教師なしドメイン適応は、ターゲットドメイン文書に擬似クエリを生成することにより、ニューラルネットワークを未知のドメインに一般化する。
この適応の質と効率は、疑似クエリ生成のためにどのドキュメントが選択されるかに大きく依存する。
既存の文書サンプリング手法は多様性に重点を置いているが、モデルの不確実性を捉えることができない。
対照的に,**un**certainty-based **Ite*rative Document Sampling (UnIte) では,(1)高次不確実性で文書をフィルタリングし,(2)高次不確実性で文書を優先順位付けし,現行モデルの学習ユーティリティを最大化することで,これらの制約に対処する。
小型モデルと大型モデルを用いたBEIRの大規模コーパス実験を行い, トレーニングサンプルサイズが小さい+2.45および+3.49nDCG@10の有意な増加率を示し, 平均4kであった。
関連論文リスト
- Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models [2.4065240342323384]
本稿では, 適応型リジェクションサンプリング(EARS)について紹介する。
EARSは、ターゲットモデルの予測不確かさを1-max(P_target)として組み込むことで、受入閾値を動的に調整する。
投機的復号化の効率を大幅に向上させ、18.12%のスループット向上を実現し、GSM8Kベンチマークでは0.84%の精度低下を無視できる。
論文 参考訳(メタデータ) (2025-12-15T11:08:56Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Unsupervised Robust Domain Adaptation without Source Data [75.85602424699447]
我々は、利用できないターゲットラベルとソースデータのコンテキストにおけるロバストなドメイン適応の問題について研究する。
4つのベンチマークデータセットでテストされたベースラインに対して10%以上の精度で一貫したパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-03-26T16:42:28Z) - Manifold-based Test Generation for Image Classifiers [7.226144684379191]
画像分類ニューラルネットワークをテストするには、信頼を刺激するのに十分な現実的なテストデータを取得する必要がある。
本稿では,これらの課題に対処するための新しい枠組みを提案する。
実験により、この手法により、十分に訓練されたモデルであっても、何千もの現実的かつフォールトレベリングなテストケースを効率的に生成できることが示された。
論文 参考訳(メタデータ) (2020-02-15T07:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。