論文の概要: Combining Data Generation and Active Learning for Low-Resource Question Answering
- arxiv url: http://arxiv.org/abs/2211.14880v2
- Date: Fri, 13 Sep 2024 14:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 00:06:41.837011
- Title: Combining Data Generation and Active Learning for Low-Resource Question Answering
- Title(参考訳): 低リソース質問応答のためのデータ生成とアクティブラーニングの併用
- Authors: Maximilian Kimmich, Andrea Bartezzaghi, Jasmina Bogojeska, Cristiano Malossi, Ngoc Thang Vu,
- Abstract要約: 低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
- 参考スコア(独自算出の注目度): 23.755283239897132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural approaches have become very popular in Question Answering (QA), however, they require a large amount of annotated data. In this work, we propose a novel approach that combines data augmentation via question-answer generation with Active Learning to improve performance in low-resource settings, where the target domains are diverse in terms of difficulty and similarity to the source domain. We also investigate Active Learning for question answering in different stages, overall reducing the annotation effort of humans. For this purpose, we consider target domains in realistic settings, with an extremely low amount of annotated samples but with many unlabeled documents, which we assume can be obtained with little effort. Additionally, we assume a sufficient amount of labeled data from the source domain being available. We perform extensive experiments to find the best setup for incorporating domain experts. Our findings show that our novel approach, where humans are incorporated in a data generation approach, boosts performance in the low-resource, domain-specific setting, allowing for low-labeling-effort question answering systems in new, specialized domains. They further demonstrate how human annotation affects the performance of QA depending on the stage it is performed.
- Abstract(参考訳): 質問回答(QA)ではニューラルネットワークのアプローチが非常に人気になっているが、大量の注釈付きデータが必要である。
本研究では,質問応答生成によるデータ拡張とアクティブラーニングを併用して,低リソース環境での性能を向上させる手法を提案する。
また,様々な段階における質問応答に対するアクティブラーニングについて検討し,人間のアノテーションの労力を減らした。
この目的のために,本研究では,極めて少ないアノテートサンプルで,かつラベルのない文書を多数含んで,現実的な設定で対象ドメインを考察する。
さらに、ソースドメインから十分な量のラベル付きデータを利用できると仮定する。
ドメインエキスパートを組み込むのに最適なセットアップを見つけるために、広範な実験を行います。
我々の新しいアプローチは、人間がデータ生成アプローチに組み入れられることで、低リソースのドメイン固有の設定のパフォーマンスが向上し、新しい特殊なドメインにおける低ラベルな質問応答システムを可能にします。
さらに、人間のアノテーションが、実行されたステージによってQAのパフォーマンスにどのように影響するかを示す。
関連論文リスト
- Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Beyond Finite Data: Towards Data-free Out-of-distribution Generalization
via Extrapolation [19.944946262284123]
ニューラルネットワークが人間のように外挿し、OODの一般化を実現するにはどうすればよいのか?
本稿では,大言語モデル(LLM)にカプセル化されている推論能力と広範な知識を活用して,完全に新しいドメインを合成する領域外挿手法を提案する。
提案手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2%超え, 評価可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-08T18:44:23Z) - Learning Feature Decomposition for Domain Adaptive Monocular Depth
Estimation [51.15061013818216]
改良されたアプローチは、深層学習の進歩で大きな成功をもたらしたが、それらは大量の地底深度アノテーションに依存している。
教師なしドメイン適応(UDA)は、教師付き学習の制約を緩和するため、ラベル付きソースデータからラベルなしターゲットデータに知識を転送する。
本稿では,その特徴空間をコンテンツやスタイルコンポーネントに分解することを学ぶための,学習特徴分解 for Adaptation (LFDA) と呼ばれる新しいMDEのためのUDA手法を提案する。
論文 参考訳(メタデータ) (2022-07-30T08:05:35Z) - Data Augmentation for Cross-Domain Named Entity Recognition [22.66649873447105]
名前付きエンティティ認識タスクのためのドメイン間データ拡張について検討する。
本稿では,データ表現を高リソースから低リソース領域に変換する新しいニューラルアーキテクチャを提案する。
本研究では,低リソース領域の表現にデータを変換することで,高リソース領域のデータのみを使用することによる大幅な改善を実現することを示す。
論文 参考訳(メタデータ) (2021-09-04T00:50:55Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Learning to Cluster under Domain Shift [20.00056591000625]
本研究では、ソースデータとターゲットデータの両方にアノテーションがない場合に、ソースからターゲットドメインに知識を転送する問題に対処する。
ディープクラスタリングに関する最近の研究から着想を得た私たちのアプローチは、複数のソースドメインから収集されたデータからの情報を活用する。
本手法は,少数のサンプルが存在する場合でも,関連する意味情報を自動的に発見できることを示す。
論文 参考訳(メタデータ) (2020-08-11T12:03:01Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。