Fugu-MT 論文翻訳(概要): Semi-supervised Relation Extraction via Data Augmentation and Consistency-training

論文の概要: Semi-supervised Relation Extraction via Data Augmentation and Consistency-training

arxiv url: http://arxiv.org/abs/2306.10153v1
Date: Fri, 16 Jun 2023 19:45:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 00:05:49.260503
Title: Semi-supervised Relation Extraction via Data Augmentation and Consistency-training
Title（参考訳）: データ拡張と一貫性学習による半教師付き関係抽出
Authors: Komal K. Teru
Abstract要約: 半教師付き学習手法は,ラベル付きデータポイントからの学習に加えて,非ラベル付きデータを活用することを目的としている。近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。本研究では,制御されたテキスト生成の最近の進歩を活用し,関係抽出タスクの高品質なデータ拡張を行う。
参考スコア（独自算出の注目度）: 2.2209333405427585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to the semantic complexity of the Relation extraction (RE) task, obtaining high-quality human labelled data is an expensive and noisy process. To improve the sample efficiency of the models, semi-supervised learning (SSL) methods aim to leverage unlabelled data in addition to learning from limited labelled data points. Recently, strong data augmentation combined with consistency-based semi-supervised learning methods have advanced the state of the art in several SSL tasks. However, adapting these methods to the RE task has been challenging due to the difficulty of data augmentation for RE. In this work, we leverage the recent advances in controlled text generation to perform high quality data augmentation for the RE task. We further introduce small but significant changes to model architecture that allows for generation of more training data by interpolating different data points in their latent space. These data augmentations along with consistency training result in very competitive results for semi-supervised relation extraction on four benchmark datasets.
Abstract（参考訳）: 関係抽出(re)タスクの意味的複雑さのため、高品質なラベル付きデータを得るのは高価でうるさいプロセスである。モデルのサンプル効率を改善するために、半教師付き学習(SSL)法はラベル付きデータポイントの限られた学習に加えて、未ラベルのデータを活用することを目的としている。近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。しかし、これらのメソッドをREタスクに適用することは、REのためのデータ拡張の難しさのために困難である。本研究では、制御されたテキスト生成の最近の進歩を活用し、REタスクの高品質なデータ拡張を行う。さらに,潜在空間内の異なるデータポイントを補間することにより,より多くのトレーニングデータの生成を可能にするモデルアーキテクチャの変更も導入した。これらのデータ拡張と整合性トレーニングは、4つのベンチマークデータセット上の半教師付き関係抽出に対して非常に競争力のある結果をもたらす。

関連論文リスト

HandCraft: Dynamic Sign Generation for Synthetic Data Augmentation [0.0]
手話認識モデルは、トレーニングデータの可用性が不十分なため、大幅なパフォーマンス上の制限に直面します。本稿では,CMLPeに基づく新規かつ軽量な手話生成モデルを提案する。このモデルは、合成データ事前学習アプローチと組み合わせて、認識精度を一貫して改善する。
論文参考訳（メタデータ） (2025-08-20T01:38:24Z)
A Time-Series Data Augmentation Model through Diffusion and Transformer Integration [0.6437284704257459]
ディープニューラルネットワークは通常、トレーニングのために大量のデータを必要とする。本稿では,Diffusion モデルと Transformer モデルを組み合わせた簡易かつ効率的な手法を提案する。ベンチマークとして拡張データを適用したモデルの性能向上を利用して,高品質な拡張データを生成する能力を示す。
論文参考訳（メタデータ） (2025-05-01T09:40:45Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文参考訳（メタデータ） (2024-10-16T16:12:39Z)
Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文参考訳（メタデータ） (2024-08-05T16:21:17Z)
A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (2024-05-15T11:58:08Z)
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文参考訳（メタデータ） (2024-02-21T02:45:46Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文参考訳（メタデータ） (2023-04-26T10:36:40Z)
A Data-Centric Approach for Training Deep Neural Networks with Less Data [1.9014535120129343]
本稿では,データ中心AI(Data-Centric AI)コンペへの優勝申請を要約する。小さなデータセットでトレーニング中に発生する課題について論じる。本稿では,新しいデータポイントを合成するためのGANベースのソリューションを提案する。
論文参考訳（メタデータ） (2021-10-07T16:41:52Z)
The Imaginative Generative Adversarial Network: Automatic Data Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action Recognition [27.795763107984286]
本稿では、入力データの分布を近似し、この分布から新しいデータをサンプリングする新しい自動データ拡張モデルを提案する。以上の結果から,拡張戦略は訓練が高速であり,ニューラルネットワークと最先端手法の両方の分類精度を向上させることが可能であることが示唆された。
論文参考訳（メタデータ） (2021-05-27T11:07:09Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文参考訳（メタデータ） (2021-02-16T17:50:51Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。