論文の概要: Iterative Data Generation with Large Language Models for Aspect-based Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2407.00341v2
- Date: Mon, 30 Sep 2024 10:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:15.828071
- Title: Iterative Data Generation with Large Language Models for Aspect-based Sentiment Analysis
- Title(参考訳): アスペクトベース感性分析のための大規模言語モデルによる反復データ生成
- Authors: Qihuang Zhong, Haiyun Li, Luyao Zhuang, Juhua Liu, Bo Du,
- Abstract要約: 本稿では,ABSAの性能向上を図るために,IDGという系統的反復データ生成フレームワークを提案する。
IDGの中核は、LLMの強力な能力(命令追従、文脈内学習、自己回帰)を最大限に活用して、より流動的で多様な擬似ラベルデータを生成することである。
IDGは5つのベースラインABSAモデルの間で一貫した、重要なパフォーマンス向上をもたらす。
- 参考スコア(独自算出の注目度): 39.57537769578304
- License:
- Abstract: Aspect-based Sentiment Analysis (ABSA) is an important sentiment analysis task, which aims to determine the sentiment polarity towards an aspect in a sentence. Due to the expensive and limited labeled data, data generation (DG) has become the standard for improving the performance of ABSA. However, current DG methods usually have some shortcomings: 1) poor fluency and coherence, 2) lack of diversity of generated data, and 3) reliance on some existing labeled data, hindering its applications in real-world scenarios. With the advancement of large language models (LLMs), LLM-based DG has the potential to solve the above issues. Unfortunately, directly prompting LLMs struggles to generate the desired pseudo-label ABSA data, as LLMs are prone to hallucinations, leading to undesired data generation. To this end, we propose a systematic Iterative Data Generation framework, namely IDG, to boost the performance of ABSA. The core of IDG is to make full use of the powerful abilities (i.e., instruction-following, in-context learning and self-reflection) of LLMs to iteratively generate more fluent and diverse pseudo-label data, starting from an unsupervised sentence corpus. Specifically, IDG designs a novel iterative data generation mechanism and a self-reflection data filtering module to tackle the challenges of unexpected data generation caused by hallucinations. Extensive experiments on four widely-used ABSA benchmarks show that IDG brings consistent and significant performance gains among five baseline ABSA models. More encouragingly, the synthetic data generated by IDG can achieve comparable or even better performance against the manually annotated data.
- Abstract(参考訳): Aspect-based Sentiment Analysis (ABSA) は重要な感情分析課題であり、ある文の側面に対する感情の極性を決定することを目的としている。
ラベル付きデータが高価で制限されているため、データ生成(DG)がABSAの性能向上の標準となっている。
しかし、現在のDGメソッドは通常、いくつかの欠点があります。
1) 流布とコヒーレンスが乏しいこと。
2)生成データの多様性の欠如、及び
3) 既存のラベル付きデータに依存することで,現実のシナリオにおけるアプリケーションの障害となる。
大規模言語モデル(LLM)の進歩により、LLMベースのDGは上記の問題を解決する可能性がある。
残念ながら、LSMは幻覚を起こす傾向があり、望ましくないデータ生成につながるため、直接的にLLMが望まれる擬似ラベルABSAデータを生成するのに苦労している。
そこで本研究では,ABSAの性能向上を図るために,IDGという系統的反復データ生成フレームワークを提案する。
IDGの中核は、LLMの強力な能力(命令追従、文脈内学習、自己回帰)を最大限に活用して、教師なしの文コーパスから始まる、より流動的で多様な擬似ラベルデータを反復的に生成することである。
具体的には,新たな反復データ生成機構と自己回帰データフィルタリングモジュールを設計し,幻覚による予期せぬデータ生成の課題に対処する。
広く使用されている4つのABSAベンチマークの大規模な実験により、IDGは5つのベースラインABSAモデルの間で一貫性があり、重要なパフォーマンス向上をもたらすことが示された。
より奨励的に、IDGによって生成された合成データは、手動で注釈付けされたデータに対して同等またはそれ以上のパフォーマンスを達成することができる。
関連論文リスト
- MARAGE: Transferable Multi-Model Adversarial Attack for Retrieval-Augmented Generation Data Extraction [6.917134562107388]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚に対する解決策を提供する。
既存のRAG抽出攻撃は、しばしば手作業によるプロンプトに依存し、その効果を制限している。
我々は、ターゲットRAGシステムに送信されたユーザクエリに付加された逆文字列を最適化するMARAGEと呼ばれるフレームワークを導入し、検索されたRAGデータを含む出力を発生させる。
論文 参考訳(メタデータ) (2025-02-05T00:17:01Z) - DS$^2$-ABSA: Dual-Stream Data Synthesis with Label Refinement for Few-Shot Aspect-Based Sentiment Analysis [28.40606116720525]
DS$2$-ABSAは、数ショットの感情分析のためのデュアルストリームデータ合成フレームワークである。
低リソース環境で多様な高品質のABSAサンプルを生成する。
論文 参考訳(メタデータ) (2024-12-19T13:39:47Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval Augmented Generation [13.120801609024147]
検索拡張生成(RAG)は,大規模言語モデル(LLM)出力の現実性を高めることが示されている。
RAG入力は、NLIモデルのトレーニングに使用されるほとんどのデータセットよりも複雑である。
教師なしドメイン適応を実現するために自動生成ドメイン適応(Auto-GDA)を導入する。
論文 参考訳(メタデータ) (2024-10-04T14:21:27Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Improving Pseudo-labelling and Enhancing Robustness for Semi-Supervised Domain Generalization [7.9776163947539755]
自動化医療のような現実のアプリケーションに不可欠な半スーパービジョン・ドメイン・ジェネリゼーションの問題について検討する。
モデル平均化を用いた新しい不確実性誘導擬似ラベリングを用いたSSDG手法を提案する。
我々の不確実性誘導型擬似ラベリング(UPL)は、モデル不確実性を利用して擬似ラベリング選択を改善する。
論文 参考訳(メタデータ) (2024-01-25T05:55:44Z) - Targeted Data Generation: Finding and Fixing Model Weaknesses [6.9649605149785465]
集約精度が高い場合でも、最先端のNLPモデルは特定のサブグループで体系的に失敗することが多い。
本稿では,挑戦的サブグループを自動的に識別するフレームワークTDGを提案する。
実験では、TDGは、最先端の感情分析と自然言語推論モデルのための挑戦的なサブグループの精度を著しく改善する。
論文 参考訳(メタデータ) (2023-05-28T19:36:50Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。