論文の概要: SDA: Improving Text Generation with Self Data Augmentation
- arxiv url: http://arxiv.org/abs/2101.03236v1
- Date: Sat, 2 Jan 2021 01:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 10:34:49.109027
- Title: SDA: Improving Text Generation with Self Data Augmentation
- Title(参考訳): SDA:Self Data Augmentationによるテキスト生成の改善
- Authors: Ping Yu, Ruiyi Zhang, Yang Zhao, Yizhe Zhang, Chunyuan Li, Changyou
Chen
- Abstract要約: 自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
- 参考スコア(独自算出の注目度): 88.24594090105899
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Data augmentation has been widely used to improve deep neural networks in
many research fields, such as computer vision. However, less work has been done
in the context of text, partially due to its discrete nature and the complexity
of natural languages. In this paper, we propose to improve the standard maximum
likelihood estimation (MLE) paradigm by incorporating a self-imitation-learning
phase for automatic data augmentation. Unlike most existing sentence-level
augmentation strategies, which are only applied to specific models, our method
is more general and could be easily adapted to any MLE-based training
procedure. In addition, our framework allows task-specific evaluation metrics
to be designed to flexibly control the generated sentences, for example, in
terms of controlling vocabulary usage and avoiding nontrivial repetitions.
Extensive experimental results demonstrate the superiority of our method on two
synthetic and several standard real datasets, significantly improving related
baselines.
- Abstract(参考訳): データ拡張はコンピュータビジョンなど多くの研究分野でディープニューラルネットワークを改善するために広く使われている。
しかし、テキストの文脈では、その離散的な性質と自然言語の複雑さによって、より少ない作業がなされている。
本稿では,自動データ拡張のための自己模倣学習フェーズを組み込むことにより,mle(standard maximum likelihood estimation)パラダイムを改善することを提案する。
特定のモデルにのみ適用可能な既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,MLEベースの訓練手順にも容易に適用できる。
さらに,本フレームワークは,例えば語彙使用の制御や非自明な繰り返しの回避などにおいて,生成した文を柔軟に制御するタスク固有の評価指標を設計することができる。
広範な実験結果から,2つの合成データと数種類の標準実データに対する本手法の優位性が示され,関連するベースラインを著しく改善した。
関連論文リスト
- Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。
本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文 参考訳(メタデータ) (2024-11-22T12:37:41Z) - GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment [0.0]
Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。
本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。
私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
論文 参考訳(メタデータ) (2024-10-30T20:28:10Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - STA: Self-controlled Text Augmentation for Improving Text
Classifications [2.9669250132689164]
自然言語処理(NLP)の分野では,テキスト拡張技術が数多く出現している。
STA(Self-Controlled Text Augmentation)のための最先端手法を提案する。
提案手法は,生成したサンプルが元のテキストのセマンティックな内容を保持することを保証するための自己チェック手順を導入することで,生成過程を厳しく制御する。
論文 参考訳(メタデータ) (2023-02-24T17:54:12Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。