論文の概要: Batch Aggregation: An Approach to Enhance Text Classification with Correlated Augmented Data
- arxiv url: http://arxiv.org/abs/2504.05020v1
- Date: Mon, 07 Apr 2025 12:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:56.837435
- Title: Batch Aggregation: An Approach to Enhance Text Classification with Correlated Augmented Data
- Title(参考訳): Batch Aggregation:コラージュデータを用いたテキスト分類へのアプローチ
- Authors: Charco Hui, Yalu Wen,
- Abstract要約: バッチアグリゲーション(BAGG)と呼ばれる新しいアプローチを提案する。
BAGGは、拡張によって生成されたテキスト入力の依存を、相関したテキストの結果を集約する追加レイヤを組み込むことで、明示的にモデル化する。
BAGGによる性能向上は、ドメイン固有のデータセットではより明らかであり、精度は最大10~29%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Natural language processing models often face challenges due to limited labeled data, especially in domain specific areas, e.g., clinical trials. To overcome this, text augmentation techniques are commonly used to increases sample size by transforming the original input data into artificial ones with the label preserved. However, traditional text classification methods ignores the relationship between augmented texts and treats them as independent samples which may introduce classification error. Therefore, we propose a novel approach called 'Batch Aggregation' (BAGG) which explicitly models the dependence of text inputs generated through augmentation by incorporating an additional layer that aggregates results from correlated texts. Through studying multiple benchmark data sets across different domains, we found that BAGG can improve classification accuracy. We also found that the increase of performance with BAGG is more obvious in domain specific data sets, with accuracy improvements of up to 10-29%. Through the analysis of benchmark data, the proposed method addresses limitations of traditional techniques and improves robustness in text classification tasks. Our result demonstrates that BAGG offers more robust results and outperforms traditional approaches when training data is limited.
- Abstract(参考訳): 自然言語処理モデルは、ラベル付きデータに制限があるため、特に専門分野、例えば臨床試験において、しばしば課題に直面している。
これを解決するために、テキスト拡張技術は、元の入力データをラベルを保存した人工的なデータに変換することで、サンプルサイズを増大させるために一般的に使用される。
しかし、従来のテキスト分類法は、拡張テキスト間の関係を無視し、それらを独立したサンプルとして扱い、分類エラーをもたらす可能性がある。
そこで本稿では,相関テキストから結果を集約する付加層を組み込むことにより,拡張によって生成されたテキスト入力の依存性を明示的にモデル化する,BAGG(Batch Aggregation)と呼ばれる新しいアプローチを提案する。
異なる領域にまたがる複数のベンチマークデータセットを調べることで、BAGGは分類精度を向上させることができることがわかった。
また、BAGGによる性能向上は、ドメイン固有のデータセットではより明らかであり、精度は最大10-29%向上した。
提案手法は,ベンチマークデータの解析を通じて従来の手法の限界に対処し,テキスト分類タスクの堅牢性を向上させる。
我々の結果は、BAGGがより堅牢な結果を提供し、トレーニングデータに制限がある場合、従来のアプローチよりも優れていることを示している。
関連論文リスト
- READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data [7.152603583363887]
BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。
本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。
提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-14T11:39:55Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Pseudo-label Based Domain Adaptation for Zero-Shot Text Steganalysis [10.587545153412314]
擬似ラベルとドメイン適応(教師なし学習)に基づくドメイン間ステゴテキスト分析法(PDTS)
我々は、ラベル付きソースドメインデータを用いてモデルをトレーニングし、自己学習を通じてラベルなしのターゲットドメインデータに対して擬似ラベルを用いて、ターゲットドメインデータ分布に適応する。
実験結果から,本手法はゼロショットテキストステガナリシスタスクにおいて良好に動作し,対象領域にラベル付きデータがない場合でも高い検出精度を実現し,現在のゼロショットテキストステガナリシス手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-01T04:19:07Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文 参考訳(メタデータ) (2021-12-16T09:56:35Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Improving unsupervised neural aspect extraction for online discussions
using out-of-domain classification [11.746330029375745]
本稿では,ニュースグループに基づくコンテンツから学んだ話題的側面を改善するために,文フィルタリングに基づく簡単なアプローチを提案する。
文フィルタリングがトピックコヒーレンスに与える影響を,未フィルタリングテキスト上で訓練されたアスペクト抽出モデルと比較した。
論文 参考訳(メタデータ) (2020-06-17T10:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。