論文の概要: Semi-supervised Relation Extraction via Data Augmentation and
Consistency-training
- arxiv url: http://arxiv.org/abs/2306.10153v1
- Date: Fri, 16 Jun 2023 19:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:05:49.260503
- Title: Semi-supervised Relation Extraction via Data Augmentation and
Consistency-training
- Title(参考訳): データ拡張と一貫性学習による半教師付き関係抽出
- Authors: Komal K. Teru
- Abstract要約: 半教師付き学習手法は,ラベル付きデータポイントからの学習に加えて,非ラベル付きデータを活用することを目的としている。
近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。
本研究では,制御されたテキスト生成の最近の進歩を活用し,関係抽出タスクの高品質なデータ拡張を行う。
- 参考スコア(独自算出の注目度): 2.2209333405427585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the semantic complexity of the Relation extraction (RE) task,
obtaining high-quality human labelled data is an expensive and noisy process.
To improve the sample efficiency of the models, semi-supervised learning (SSL)
methods aim to leverage unlabelled data in addition to learning from limited
labelled data points. Recently, strong data augmentation combined with
consistency-based semi-supervised learning methods have advanced the state of
the art in several SSL tasks. However, adapting these methods to the RE task
has been challenging due to the difficulty of data augmentation for RE. In this
work, we leverage the recent advances in controlled text generation to perform
high quality data augmentation for the RE task. We further introduce small but
significant changes to model architecture that allows for generation of more
training data by interpolating different data points in their latent space.
These data augmentations along with consistency training result in very
competitive results for semi-supervised relation extraction on four benchmark
datasets.
- Abstract(参考訳): 関係抽出(re)タスクの意味的複雑さのため、高品質なラベル付きデータを得るのは高価でうるさいプロセスである。
モデルのサンプル効率を改善するために、半教師付き学習(SSL)法はラベル付きデータポイントの限られた学習に加えて、未ラベルのデータを活用することを目的としている。
近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。
しかし、これらのメソッドをREタスクに適用することは、REのためのデータ拡張の難しさのために困難である。
本研究では、制御されたテキスト生成の最近の進歩を活用し、REタスクの高品質なデータ拡張を行う。
さらに,潜在空間内の異なるデータポイントを補間することにより,より多くのトレーニングデータの生成を可能にするモデルアーキテクチャの変更も導入した。
これらのデータ拡張と整合性トレーニングは、4つのベンチマークデータセット上の半教師付き関係抽出に対して非常に競争力のある結果をもたらす。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Imitation Learning Inputting Image Feature to Each Layer of Neural
Network [1.6574413179773757]
模倣学習は、トレーニングデータから人間の行動を学習し、再現することを可能にする。
機械学習の最近の進歩は、画像などの高次元観測データを直接処理するエンドツーエンドの学習アプローチを可能にする。
本稿では,データの影響を比較的低い相関で増幅する,この課題に対処する有用な手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T02:44:18Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - A Data-Centric Approach for Training Deep Neural Networks with Less Data [1.9014535120129343]
本稿では,データ中心AI(Data-Centric AI)コンペへの優勝申請を要約する。
小さなデータセットでトレーニング中に発生する課題について論じる。
本稿では,新しいデータポイントを合成するためのGANベースのソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-07T16:41:52Z) - The Imaginative Generative Adversarial Network: Automatic Data
Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action
Recognition [27.795763107984286]
本稿では、入力データの分布を近似し、この分布から新しいデータをサンプリングする新しい自動データ拡張モデルを提案する。
以上の結果から,拡張戦略は訓練が高速であり,ニューラルネットワークと最先端手法の両方の分類精度を向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-27T11:07:09Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。
提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。
金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文 参考訳(メタデータ) (2021-02-16T17:50:51Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Complex Wavelet SSIM based Image Data Augmentation [0.0]
我々は,MNIST手書き画像データセットを数値認識に用いる画像データセットとして検討する。
このデータセットの弾性変形に最もよく用いられる拡張手法の1つを詳細に検討する。
本稿では、複雑なウェーブレット構造類似度指標(CWSSIM)と呼ばれる類似度尺度を用いて、無関係なデータを選択的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2020-07-11T21:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。