論文の概要: Back-Training excels Self-Training at Unsupervised Domain Adaptation of
Question Generation and Passage Retrieval
- arxiv url: http://arxiv.org/abs/2104.08801v1
- Date: Sun, 18 Apr 2021 10:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 07:00:48.494369
- Title: Back-Training excels Self-Training at Unsupervised Domain Adaptation of
Question Generation and Passage Retrieval
- Title(参考訳): 教師なし領域適応による質問生成とパス検索における自己学習の促進
- Authors: Devang Kulshreshtha, Robert Belfer, Iulian Vlad Serban, Siva Reddy
- Abstract要約: 自己学習の代替手段として,$textitback-training$という新しいドメイン適応法を提案する。
自己学習は、ノイズ出力と整合したフォーム品質入力の合成訓練データを生成する一方で、バックトレーニングの結果は品質出力と整合したノイズ入力を生成する。
- 参考スコア(独自算出の注目度): 7.677552897001843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new domain adaptation method called
$\textit{back-training}$, a superior alternative to self-training. While
self-training results in synthetic training data of the form quality inputs
aligned with noisy outputs, back-training results in noisy inputs aligned with
quality outputs. Our experimental results on unsupervised domain adaptation of
question generation and passage retrieval models from $\textit{Natural
Questions}$ domain to the machine learning domain show that back-training
outperforms self-training by a large margin: 9.3 BLEU-1 points on generation,
and 7.9 accuracy points on top-1 retrieval. We release $\textit{MLQuestions}$,
a domain-adaptation dataset for the machine learning domain containing 50K
unaligned passages and 35K unaligned questions, and 3K aligned passage and
question pairs. Our data and code are available at
https://github.com/McGill-NLP/MLQuestions
- Abstract(参考訳): 本稿では,自己学習の代替として,$\textit{back-training}$という新しいドメイン適応法を提案する。
自己学習は、ノイズ出力と整合したフォーム品質入力の合成訓練データを生成する一方で、バックトレーニングの結果は品質出力と整合したノイズ入力を生成する。
The experimental results on unsupervised domain adaptation of question generation and passage search model from $\textit{Natural Questions}$ domain to the machine learning domain shows that back-training outperforms self-training by a wide margin: 9.3 BLEU-1 points on generation, and 7.9 accuracy points on top-1 search。
これは、5kのアンアラインされたパッセーションと35kのアンアラインな質問、3kのアラインされたパッセーションと質問ペアを含む、機械学習ドメインのためのドメイン適応データセットです。
我々のデータとコードはhttps://github.com/McGill-NLP/MLQuestionsで入手できる。
関連論文リスト
- Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - DomainAdaptor: A Novel Approach to Test-time Adaptation [33.770970763959355]
DomainAdaptorは、テスト中に未確認のドメインにトレーニング済みのCNNモデルを適用することを目的としている。
AdaMixBNは、正規化層のトレーニングとテスト統計を適応的に融合することで、ドメインシフトに対処する。
実験によると、DomainAdaptorは4つのベンチマークで最先端のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-20T15:37:01Z) - Lightweight Online Learning for Sets of Related Problems in Automated
Reasoning [4.631017653977736]
$textitsdsl$はオフラインのトレーニングを必要とせず、以前の問題を解決しながらデータセットを自動的に構築する。
このデータに機械学習モデルが適合し、その後の問題の解法戦略を調整するのに使用される。
Kissat+$textitsdsl$の組み合わせは、より大きなバウンダリを認証し、他の最先端のバウンダリモデル検査手法よりも多くの反例を見出すことを示す。
論文 参考訳(メタデータ) (2023-05-18T16:23:10Z) - Automatic Noise Filtering with Dynamic Sparse Training in Deep
Reinforcement Learning [20.86737037880233]
明日のロボットは ノイズから 有用な情報を識別する必要がある
関係のないデータを含む 邪魔な入力をフィルタリングする 強化学習の文献では ほとんど注目されていない
エージェントは、環境の状態に関するタスク関連情報を提供する機能を検出する必要がある。
論文 参考訳(メタデータ) (2023-02-13T17:45:03Z) - AdaTriplet-RA: Domain Matching via Adaptive Triplet and Reinforced
Attention for Unsupervised Domain Adaptation [15.905869933337101]
教師なしドメイン適応(Unsupervised Domain Adaption、UDA)は、ソースドメインのデータとアノテーションが利用できるが、トレーニング中にラベル付けされていないターゲットデータにのみアクセスできるトランスファー学習タスクである。
本稿では、ドメイン間サンプルマッチング方式を用いて、教師なしドメイン適応タスクを改善することを提案する。
ドメイン間サンプルに合わせるために,広く利用され,堅牢なTriplet損失を適用した。
トレーニング中に発生する不正確な擬似ラベルの破滅的効果を低減するため,信頼度の高い擬似ラベルを自動的に選択し,段階的に改良する新しい不確実性測定法を提案する。
論文 参考訳(メタデータ) (2022-11-16T13:04:24Z) - Contrastive Domain Adaptation for Question Answering using Limited Text
Corpora [20.116147632481983]
本稿では,QAに対するコントラッシブ・ドメイン適応という,ドメイン適応のための新しいフレームワークを提案する。
特に、CAQAは、質問生成とドメイン不変学習の技法を組み合わせて、限られたテキストコーパスでドメイン外質問に答える。
論文 参考訳(メタデータ) (2021-08-31T14:05:55Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。