論文の概要: ARISE: Iterative Rule Induction and Synthetic Data Generation for Text Classification
- arxiv url: http://arxiv.org/abs/2502.05923v1
- Date: Sun, 09 Feb 2025 14:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:53.826788
- Title: ARISE: Iterative Rule Induction and Synthetic Data Generation for Text Classification
- Title(参考訳): ARISE: テキスト分類のための反復規則誘導と合成データ生成
- Authors: Yashwanth M., Vaibhav Singh, Ayush Maheshwari, Amrith Krishna, Ganesh Ramakrishnan,
- Abstract要約: ARISEは、規則を反復的に導き、テキスト分類のための合成データを生成するフレームワークである。
我々は、構文的n-グラムの帰納的一般化により規則を誘導し、補完的な監督源を捉えることができる。
- 参考スコア(独自算出の注目度): 27.023332376571677
- License:
- Abstract: We propose ARISE, a framework that iteratively induces rules and generates synthetic data for text classification. We combine synthetic data generation and automatic rule induction, via bootstrapping, to iteratively filter the generated rules and data. We induce rules via inductive generalisation of syntactic n-grams, enabling us to capture a complementary source of supervision. These rules alone lead to performance gains in both, in-context learning (ICL) and fine-tuning (FT) settings. Similarly, use of augmented data from ARISE alone improves the performance for a model, outperforming configurations that rely on complex methods like contrastive learning. Further, our extensive experiments on various datasets covering three full-shot, eight few-shot and seven multilingual variant settings demonstrate that the rules and data we generate lead to performance improvements across these diverse domains and languages.
- Abstract(参考訳): 本稿では,ルールを反復的に生成し,テキスト分類のための合成データを生成するフレームワークであるARISEを提案する。
我々は、合成データ生成とブートストラップによる自動ルール誘導を組み合わせて、生成されたルールとデータを反復的にフィルタリングする。
我々は、構文的n-グラムの帰納的一般化により規則を誘導し、補完的な監督源を捉えることができる。
これらのルールだけで、インコンテキスト学習(ICL)とファインチューニング(FT)の両方でパフォーマンスが向上する。
同様に、ARISEの強化データを使用することだけでモデルのパフォーマンスが向上し、コントラスト学習のような複雑な手法に依存する構成よりも優れています。
さらに、3つのフルショット、8つのパースショット、7つのマルチリンガルな設定を含むさまざまなデータセットに関する広範な実験では、私たちが生成するルールとデータが、これらの多様なドメインや言語のパフォーマンス改善につながることが示されています。
関連論文リスト
- Seed-Free Synthetic Data Generation Framework for Instruction-Tuning LLMs: A Case Study in Thai [5.670682861458055]
タイ語を中心に,低リソース言語のための命令調整型大規模言語モデル(LLM)をデータ効率よく合成する手法を提案する。
教育訓練データセットの有効性に寄与する3つの重要な特性を同定する。
我々のフレームワークはLLMを用いて多様なトピックを生成し、ウィキペディアから関連するコンテキストを検索し、質問応答、要約、会話などの様々なタスクの指示を作成する。
論文 参考訳(メタデータ) (2024-11-23T07:50:59Z) - Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。
本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文 参考訳(メタデータ) (2024-11-22T12:37:41Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - On Adversarial Robustness of Synthetic Code Generation [1.2559148369195197]
本論文は, 逆数例の異なるクラスを通して, 有意なデータセットバイアスの存在を示す。
バイアスを低減し,有効性を示すために,いくつかのデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T09:37:48Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。