Fugu-MT 論文翻訳(概要): READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data

論文の概要: READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data

arxiv url: http://arxiv.org/abs/2501.08035v1
Date: Tue, 14 Jan 2025 11:39:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.451723
Title: READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data
Title（参考訳）: READ:限定ラベル付きデータを用いたテキスト分類のための強化型逆学習
Authors: Rohit Sharma, Shanu Kumar, Avinash Kumar,
Abstract要約: BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
参考スコア（独自算出の注目度）: 7.152603583363887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained transformer models such as BERT have shown massive gains across many text classification tasks. However, these models usually need enormous labeled data to achieve impressive performances. Obtaining labeled data is often expensive and time-consuming, whereas collecting unlabeled data using some heuristics is relatively much cheaper for any task. Therefore, this paper proposes a method that encapsulates reinforcement learning-based text generation and semi-supervised adversarial learning approaches in a novel way to improve the model's performance. Our method READ, Reinforcement-based Adversarial learning, utilizes an unlabeled dataset to generate diverse synthetic text through reinforcement learning, improving the model's generalization capability using adversarial learning. Our experimental results show that READ outperforms the existing state-of-art methods on multiple datasets.
Abstract（参考訳）: BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。しかし、これらのモデルは通常、素晴らしいパフォーマンスを達成するために巨大なラベル付きデータを必要とします。ラベル付きデータの収集は高価で時間を要することが多いが、ヒューリスティックスを使ってラベル付きデータを収集することは、どんなタスクでも比較的安価である。そこで本研究では,モデルの性能向上のために,強化学習に基づくテキスト生成と半教師付き対人学習アプローチをカプセル化する手法を提案する。提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成することにより、逆学習を用いたモデルの一般化能力を向上させる。実験の結果,READは複数のデータセット上で既存の最先端手法よりも優れていた。

関連論文リスト

Negative Matters: Multi-Granularity Hard-Negative Synthesis and Anchor-Token-Aware Pooling for Enhanced Text Embeddings [25.565372681837697]
クエリに類似するレベルが異なる多様な負のサンプルを生成するために,マルチグラニュラリティ・ハード負(MGH)合成フレームワークを導入する。また,Anchor Token Aware(ATA)プーリング手法を提案する。
論文参考訳（メタデータ） (2025-08-31T13:24:48Z)
SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-05-19T17:57:36Z)
GALOT: Generative Active Learning via Optimizable Zero-shot Text-to-image Generation [21.30138131496276]
本稿では,ゼロショットテキスト・トゥ・イメージ(T2I)合成とアクティブラーニングを統合した。我々はAL基準を利用してテキスト入力を最適化し、より情報的で多様なデータサンプルを生成する。このアプローチは、モデルトレーニングの効率を高めながら、データ収集とアノテーションのコストを削減します。
論文参考訳（メタデータ） (2024-12-18T18:40:21Z)
Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文参考訳（メタデータ） (2024-11-22T12:37:41Z)
Data Augmentation for Sparse Multidimensional Learning Performance Data Using Generative AI [17.242331892899543]
学習パフォーマンスデータは、適応学習における正しい解答や問題解決の試みを記述している。学習性能データは、適応的なアイテム選択のため、ほとんどの実世界のアプリケーションでは、非常にスパースな(80%(sim)90%の欠落)傾向にある。本稿では,学習者のデータの分散性に対処するために,学習者のデータを拡張するための体系的フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T00:25:07Z)
EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文参考訳（メタデータ） (2024-04-15T17:49:16Z)
Towards Efficient Active Learning in NLP via Pretrained Representations [1.90365714903665]
ファインチューニング大型言語モデル(LLM)は、今や幅広いアプリケーションにおけるテキスト分類の一般的なアプローチである。能動学習ループ内でのLLMの事前学習表現を用いて,このプロセスを大幅に高速化する。私たちの戦略は、アクティブな学習ループを通した微調整と同じようなパフォーマンスを得るが、計算コストは桁違いに低い。
論文参考訳（メタデータ） (2024-02-23T21:28:59Z)
Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-06-06T16:11:58Z)
BERT WEAVER: Using WEight AVERaging to enable lifelong learning for transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。 WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文参考訳（メタデータ） (2022-02-21T10:34:41Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
Iterative Data Programming for Expanding Text Classification Corpora [9.152045698511506]
実世界のテキスト分類タスクは、しばしば、取得するのに高価なラベル付きトレーニング例を必要とする。機械教育の最近の進歩、特にデータプログラミングパラダイムは、トレーニングデータセットの迅速な作成を促進する。近所の弱いモデルを生成することによってテキストデータセットを拡大するための,高速でシンプルなデータプログラミング手法を提案する。
論文参考訳（メタデータ） (2020-02-04T17:12:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。