論文の概要: Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps
- arxiv url: http://arxiv.org/abs/2211.03988v1
- Date: Tue, 8 Nov 2022 03:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:00:58.925390
- Title: Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps
- Title(参考訳): 語彙充足と単語頻度ギャップによるスパース検索のための教師なし領域適応
- Authors: Hiroki Iida and Naoaki Okazaki
- Abstract要約: 事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 12.573927420408365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: IR models using a pretrained language model significantly outperform lexical
approaches like BM25. In particular, SPLADE, which encodes texts to sparse
vectors, is an effective model for practical use because it shows robustness to
out-of-domain datasets. However, SPLADE still struggles with exact matching of
low-frequency words in training data. In addition, domain shifts in vocabulary
and word frequencies deteriorate the IR performance of SPLADE. Because
supervision data are scarce in the target domain, addressing the domain shifts
without supervision data is necessary. This paper proposes an unsupervised
domain adaptation method by filling vocabulary and word-frequency gaps. First,
we expand a vocabulary and execute continual pretraining with a masked language
model on a corpus of the target domain. Then, we multiply SPLADE-encoded sparse
vectors by inverse document frequency weights to consider the importance of
documents with lowfrequency words. We conducted experiments using our method on
datasets with a large vocabulary gap from a source domain. We show that our
method outperforms the present stateof-the-art domain adaptation method. In
addition, our method achieves state-of-the-art results, combined with BM25.
- Abstract(参考訳): 事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチを著しく上回った。
特に、テキストをスパースベクトルにエンコードするSPLADEは、ドメイン外のデータセットに堅牢性を示すため、実用的に有効なモデルである。
しかし、SPLADEはトレーニングデータにおける低周波単語の正確なマッチングに苦慮している。
さらに、語彙や単語頻度のドメインシフトは、SPLADEの赤外線性能を低下させる。
監視データは対象領域では少ないため、監視データなしでのドメインシフトに対処する必要がある。
本稿では,語彙と単語周波数のギャップを埋める非教師なし領域適応法を提案する。
まず,対象領域のコーパス上で,語彙を拡張し,マスキング言語モデルを用いて連続的に事前学習を行う。
次に、SPLADE符号化されたスパースベクトルを逆文書頻度重みに乗じて、低頻度単語による文書の重要性を検討する。
ソースドメインからの大きな語彙ギャップを持つデータセットに対して,本手法を用いた実験を行った。
本手法は,現状のドメイン適応法よりも優れていることを示す。
さらに,本手法はBM25と組み合わせて最先端の結果を得る。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - VLAD-VSA: Cross-Domain Face Presentation Attack Detection with
Vocabulary Separation and Adaptation [87.9994254822078]
顔提示攻撃(PAD)の場合、スプーフィングキューのほとんどは微妙で局所的な画像パターンである。
VLADアグリゲーション法は,特徴空間を局所的に分割する視覚語彙を用いて局所特徴を定量化する。
提案する語彙分離法は,語彙をドメイン共有語とドメイン固有語に分割する。
論文 参考訳(メタデータ) (2022-02-21T15:27:41Z) - AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain [17.115865763783336]
本稿では,語彙を最適化可能なパラメータとして考慮し,ドメイン固有の語彙で拡張することで語彙を更新することを提案する。
我々は、事前学習された言語モデルから学習した知識を正規化項で活用することにより、付加された単語の埋め込みを、過剰適合から下流データへ保存する。
論文 参考訳(メタデータ) (2021-10-26T06:26:01Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain
Detection [60.88952532574564]
本稿では,ドメイン外インテント検出手法を徹底的に比較する。
意図分類のための3つの標準データセット上で,複数のコンテキストエンコーダとメソッドを効率良く評価する。
本研究の主目的は,超微調整トランスフォーマーを用いたドメイン内データエンコーダが優れた結果をもたらすことである。
論文 参考訳(メタデータ) (2021-01-11T09:10:58Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Coupling Distant Annotation and Adversarial Training for Cross-Domain
Chinese Word Segmentation [40.27961925319402]
本論文は,中国語の単語セグメント化のための遠隔アノテーションと逆行訓練を併用することを提案する。
遠隔アノテーションのために、ターゲットドメインからの監視や事前定義された辞書を必要としない自動遠隔アノテーション機構を設計する。
逆行訓練では、音源領域情報の雑音低減と最大限の活用を行うための文レベルの訓練手法を開発する。
論文 参考訳(メタデータ) (2020-07-16T08:54:17Z) - Unsupervised Paraphrasing via Deep Reinforcement Learning [33.00732998036464]
Progressive Unsupervised Paraphrasing (PUP) は、深層強化学習(DRL)に基づく教師なしのパラフレーズ生成法である。
PUPは変分オートエンコーダを使用して、DRLモデルをウォームスタートするシードパラフレーズを生成する。
そこでPUPは, 意味的妥当性, 言語流布度, 表現多様性の指標を組み合わせた, 新たな報酬関数によって導かれるシードパラフレーズを段階的に調整する。
論文 参考訳(メタデータ) (2020-07-05T05:54:02Z) - Vocabulary Adaptation for Distant Domain Adaptation in Neural Machine
Translation [14.390932594872233]
語彙のミスマッチにより、ドメイン間のドメイン適応を効果的に行うことはできない。
本稿では,効果的な微調整法である語彙適応法を提案する。
本手法は,En-JaおよびDe-En翻訳における従来の微調整性能を3.86点,3.28点改善する。
論文 参考訳(メタデータ) (2020-04-30T14:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。