論文の概要: Balanced Training Data Augmentation for Aspect-Based Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2507.09485v1
- Date: Sun, 13 Jul 2025 04:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.354794
- Title: Balanced Training Data Augmentation for Aspect-Based Sentiment Analysis
- Title(参考訳): アスペクトベース感性分析のためのバランス付きトレーニングデータ強化
- Authors: Junjie Liu, Yuanhe Tian, Yan Song,
- Abstract要約: アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのシナリオにおいて重要なきめ細かなタスクである。
本稿では,LLMに基づくトレーニングデータ拡張を用いたABSA手法を提案する。
- 参考スコア(独自算出の注目度): 21.540505918226348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aspect-based sentiment analysis (ABSA) is a crucial fine-grained task in social media scenarios to identify the sentiment polarity of specific aspect terms in a sentence. Although many existing studies leverage large language models (LLMs) to perform ABSA due to their strong context understanding capabilities, they still face challenges to learn the context information in the running text because of the short text, as well as the small and unbalanced labeled training data, where most data are labeled with positive sentiment. Data augmentation (DA) is a feasible strategy for providing richer contextual information, especially when using LLMs to create synthetic training data, but faces challenges in ensuring a high quality of the augmented data.In this paper, we propose an LLM-based ABSA approach with training data augmentation.Specifically, an LLM is prompted to generate augmented training data based on the original training data, so as to construct a new training data with larger size and balanced label distributions to better train an ABSA model. Meanwhile, in order to improve the quality of the augmented data, we propose a reinforcement learning approach to optimize the data augmentation. LLM.Experiment results and further analyses on English benchmark datasets for ABSA demonstrate the effectiveness of our approach, where superior performance is observed over strong baselines and most existing studies.
- Abstract(参考訳): アスペクトベースの感情分析(ABSA)は、ある文中の特定のアスペクト項の感情極性を特定するために、ソーシャルメディアのシナリオにおいて重要なきめ細かなタスクである。
多くの既存の研究は、強い文脈理解能力のために、大規模言語モデル(LLM)を活用してABSAを実行するが、短いテキストのために実行中のテキストのコンテキスト情報と、ほとんどのデータが肯定的な感情でラベル付けされる小さなラベル付きトレーニングデータを学ぶことの難しさに直面している。
データ拡張(DA)は、特に合成トレーニングデータの作成にLLMを使用する場合において、よりリッチなコンテキスト情報を提供するための実現可能な戦略であるが、強化データの品質を確保するための課題に直面している。この記事では、トレーニングデータ拡張を伴うLLMベースのABSAアプローチを提案する。
一方,拡張データの質を向上させるため,データ拡張を最適化するための強化学習手法を提案する。
LLM.実験結果と、ABSAのための英語ベンチマークデータセットのさらなる分析により、我々のアプローチの有効性が実証された。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Data Efficacy for Language Model Training [29.901090317084005]
データは言語モデル(LM)の訓練の基礎となる。
近年の研究では、トレーニングデータの最小または最適サブセットを選択することで、パフォーマンスを最大化することを目的としている。
本研究は、LMトレーニングにおけるデータの有効性を検討するための一般的なパラダイムであるDELTを紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:59:07Z) - Towards Efficient and Effective Alignment of Large Language Models [7.853945494882636]
大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。
この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
論文 参考訳(メタデータ) (2025-06-11T02:08:52Z) - Semantic-preserved Augmentation with Confidence-weighted Fine-tuning for Aspect Category Sentiment Analysis [3.1394848827666544]
大規模言語モデル(LLM)は、低リソースシナリオにおけるデータの不足に対処するための効果的なアプローチである。
本稿では、アスペクトカテゴリー感情分析タスクのためのデータ拡張戦略を提案する。
我々は、生成した文と原文とのセマンティック一貫性を確保するために、後処理技術を用いる。
論文 参考訳(メタデータ) (2025-06-08T13:53:28Z) - Text Data Augmentation for Large Language Models: A Comprehensive Survey of Methods, Challenges, and Opportunities [3.1394848827666544]
大規模コーパスで訓練された大規模言語モデル(LLM)は、顕著なテキスト生成機能を持つ。
最近の有望な検索に基づく手法は、データ拡張におけるLLMの表現性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-01-31T01:50:49Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Iterative Data Generation with Large Language Models for Aspect-based Sentiment Analysis [39.57537769578304]
本稿では,ABSAの性能向上を図るために,IDGという系統的反復データ生成フレームワークを提案する。
IDGの中核は、LLMの強力な能力(命令追従、文脈内学習、自己回帰)を最大限に活用して、より流動的で多様な擬似ラベルデータを生成することである。
IDGは5つのベースラインABSAモデルの間で一貫した、重要なパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2024-06-29T07:00:37Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Less for More: Enhanced Feedback-aligned Mixed LLMs for Molecule Caption Generation and Fine-Grained NLI Evaluation [11.778576032848482]
この研究は、最小または追加の訓練を伴わずに、推論と評価能力を改善することで、科学的言語モデルを強化する。
このような手法の動作と適合性に関する興味深い洞察を明らかにしながら、最先端のモデルを大幅に超えている。
そこで本研究では,未知の化学領域で使用するために,市販の自然言語推論(NLI)モデルを利用した新しい原子レベル評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T20:40:53Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - WADER at SemEval-2023 Task 9: A Weak-labelling framework for Data
augmentation in tExt Regression Tasks [4.102007186133394]
本稿では、WADERと呼ばれるテキスト回帰タスクにおいて、データ拡張のための新しい弱ラベル方式を提案する。
我々は、WADERを用いて、事前訓練された多言語言語モデルの性能をベンチマークし、データのバイアスを軽減するためにサンプリング技術を用いて分析する。
論文 参考訳(メタデータ) (2023-03-05T19:45:42Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。