論文の概要: Balancing Multi-Domain Corpora Learning for Open-Domain Response
Generation
- arxiv url: http://arxiv.org/abs/2205.02570v1
- Date: Thu, 5 May 2022 11:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 15:01:06.887514
- Title: Balancing Multi-Domain Corpora Learning for Open-Domain Response
Generation
- Title(参考訳): オープンドメイン応答生成のためのマルチドメインコーパス学習のバランス
- Authors: Yujie Xing, Jinglun Cai, Nils Barlaug, Peng Liu, Jon Atle Gulla
- Abstract要約: オープンドメインの会話システムは、複数のドメインで等しく良い応答を生成すると仮定される。
本稿では,複数ドメインのコーパスに対して関連性のある応答を生成する手法について検討する。
- 参考スコア(独自算出の注目度): 3.3242685629646256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-domain conversational systems are assumed to generate equally good
responses on multiple domains. Previous work achieved good performance on the
single corpus, but training and evaluating on multiple corpora from different
domains are less studied. This paper explores methods of generating relevant
responses for each of multiple multi-domain corpora. We first examine
interleaved learning which intermingles multiple corpora as the baseline. We
then investigate two multi-domain learning methods, labeled learning and
multi-task labeled learning, which encode each corpus through a unique corpus
embedding. Furthermore, we propose Domain-specific Frequency (DF), a novel
word-level importance weight that measures the relative importance of a word
for a specific corpus compared to other corpora. Based on DF, we propose
weighted learning, a method that integrates DF to the loss function. We also
adopt DF as a new evaluation metric. Extensive experiments show that our
methods gain significant improvements on both automatic and human evaluation.
We share our code and data for reproducibility
- Abstract(参考訳): オープンドメインの会話システムは、複数のドメインで等しく良い応答を生成すると仮定される。
従来は1つのコーパスで優れた性能を発揮していたが、異なるドメインからの複数のコーパスのトレーニングと評価は少ない。
本稿では,複数ドメインのコーパス毎に関連応答を生成する手法について検討する。
まず,複数のコーパスをベースラインとするインターリーブ学習について検討する。
次に,各コーパスを一意なコーパス埋め込みでエンコードする,ラベル付き学習とマルチタスクラベル付き学習の2つの多領域学習法について検討した。
さらに,特定のコーパスに対する単語の相対的重要性を他のコーパスと比較して測定する新しい単語レベルの重み付けであるDomain-specific Frequency (DF)を提案する。
本研究では,dfを損失関数に統合する重み付き学習を提案する。
また,新しい評価指標としてdfを採用する。
実験結果から,本手法は自動評価と人的評価の両方において有意な改善が得られた。
再現性のためにコードとデータを共有し
関連論文リスト
- Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - A Unified Approach to Domain Incremental Learning with Memory: Theory
and Algorithm [7.919690718820747]
本稿では,Unified Domain Incremental Learning (UDIL, Unified Domain Incremental Learning) と呼ばれる統合フレームワークを提案する。
我々の UDIL**** は既存の様々なメソッドを統一し、我々の理論解析は、UDILがこれらのメソッドよりも厳密な一般化誤差を常に達成していることを示している。
実験の結果,我々のUDILは,合成データセットと実世界のデータセットの両方において,最先端のドメインインクリメンタルラーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-18T18:30:07Z) - Multi-Source (Pre-)Training for Cross-Domain Measurement, Unit and
Context Extraction [15.177664715250046]
本稿では,事前学習言語モデルに基づく自動計測と文脈抽出のためのクロスドメイン手法を提案する。
マルチソース・マルチドメイン・コーパスを構築し,エンドツーエンド抽出パイプラインを訓練する。
結果から,マルチソーストレーニングが最高の結果をもたらすのに対して,シングルソーストレーニングは各ドメインに対して最高の結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-08-05T20:33:39Z) - A Curriculum Learning Approach for Multi-domain Text Classification
Using Keyword weight Ranking [17.71297141482757]
本稿では,キーワードウェイトランキングに基づくカリキュラム学習戦略を用いて,マルチドメインテキスト分類モデルの性能を向上させることを提案する。
AmazonのレビューとFDU-MTLデータセットの実験結果から,カリキュラム学習戦略は多分野テキスト分類モデルの性能を効果的に向上することが示された。
論文 参考訳(メタデータ) (2022-10-27T03:15:26Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - DABS: A Domain-Agnostic Benchmark for Self-Supervised Learning [6.040682281295584]
自己教師型学習のためのドメインに依存しないベンチマークであるDABSを提案する。
自然画像、マルチチャネルセンサデータ、英語テキスト、音声記録、多言語テキスト、胸部X線、およびテキスト記述を伴う画像の7つの領域でアルゴリズムを評価する。
e-Mix と ShED: 2つのベースラインドメインに依存しないアルゴリズムも提示する。
論文 参考訳(メタデータ) (2021-11-23T18:22:14Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Universal Representation Learning from Multiple Domains for Few-shot
Classification [41.821234589075445]
複数の個別に訓練されたネットワークの知識を蒸留し,一組の普遍的な深層表現を学習することを提案する。
より効率的な適応ステップにより、未確認領域に対する普遍表現をさらに洗練できることが示される。
論文 参考訳(メタデータ) (2021-03-25T13:49:12Z) - Curriculum CycleGAN for Textual Sentiment Domain Adaptation with
Multiple Sources [68.31273535702256]
我々は,C-CycleGAN(C-CycleGAN)という,新しいインスタンスレベルのMDAフレームワークを提案する。
C-CycleGANは、(1)異なるドメインからのテキスト入力を連続的な表現空間にエンコードする事前訓練されたテキストエンコーダ、(2)ソースとターゲットドメイン間のギャップを埋めるカリキュラムインスタンスレベルの適応を伴う中間ドメインジェネレータ、(3)中間ドメインで最終感情分類のために訓練されたタスク分類器の3つのコンポーネントから構成される。
3つのベンチマークデータセットに対して広範な実験を行い、最先端のDAアプローチよりも大幅に向上した。
論文 参考訳(メタデータ) (2020-11-17T14:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。