論文の概要: Data Augmentation for Biomedical Factoid Question Answering
- arxiv url: http://arxiv.org/abs/2204.04711v1
- Date: Sun, 10 Apr 2022 15:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 11:16:27.844168
- Title: Data Augmentation for Biomedical Factoid Question Answering
- Title(参考訳): バイオメディカル・ファクトイド質問応答のためのデータ強化
- Authors: Dimitris Pappas and Prodromos Malakasiotis and Ion Androutsopoulos
- Abstract要約: 本研究では, バイオメディカル領域に着目し, 事実質問応答における7つのデータ拡張(da)手法の効果について検討した。
daは、大きなトレーニング済みトランスフォーマーを使用しても、非常に大きなパフォーマンス向上をもたらす可能性があることを示す。
最も単純なdaメソッドの1つは、Word2vecベースの単語置換であり、最もよく実行され、推奨される。
- 参考スコア(独自算出の注目度): 23.40184367553094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the effect of seven data augmentation (da) methods in factoid
question answering, focusing on the biomedical domain, where obtaining training
instances is particularly difficult. We experiment with data from the BioASQ
challenge, which we augment with training instances obtained from an artificial
biomedical machine reading comprehension dataset, or via back-translation,
information retrieval, word substitution based on word2vec embeddings, or
masked language modeling, question generation, or extending the given passage
with additional context. We show that da can lead to very significant
performance gains, even when using large pre-trained Transformers, contributing
to a broader discussion of if/when da benefits large pre-trained models. One of
the simplest da methods, word2vec-based word substitution, performed best and
is recommended. We release our artificial training instances and code.
- Abstract(参考訳): 本研究では,7つのデータ拡張法(da)の効果について,特にトレーニングインスタンスの取得が困難である生体医学領域に着目して検討した。
我々は,BioASQの課題から得られたデータを用いて,人工バイオメディカルマシン読解データセットから得られた学習例,あるいは後方翻訳,情報検索,ワード2vec埋め込みに基づく単語置換,あるいはマスク付き言語モデリング,質問生成,あるいは追加コンテキストで与えられた文節の拡張による学習例を実験した。
daは、大規模な事前トレーニングされたトランスフォーマーを使用しても、非常に大きなパフォーマンス向上をもたらす可能性があることを示す。
最も単純なdaメソッドの1つは、Word2vecベースの単語置換であり、最もよく実行され、推奨される。
人工トレーニングインスタンスとコードをリリースしています。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。
我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。
また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Generating artificial texts as substitution or complement of training
data [1.3750624267664153]
本稿では,教師付き学習課題のための学習データを生成するために人工データを使用するという課題について考察する。
微調整GPT-2モデルを用いた人工データを用いたWeb関連分類タスクにおいて,異なる実験を行った。
以上の結果から,そのような人工データは一定の拡張で使用できるが,性能を著しく向上させるためには前処理が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T14:53:42Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z) - An Analysis of Simple Data Augmentation for Named Entity Recognition [21.013836715832564]
名前付きエンティティ認識のためのデータ拡張の設計と比較を行う。
簡単な拡張により、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-10-22T13:21:03Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。