Fugu-MT 論文翻訳(概要): FuseGen: PLM Fusion for Data-generation based Zero-shot Learning

論文の概要: FuseGen: PLM Fusion for Data-generation based Zero-shot Learning

arxiv url: http://arxiv.org/abs/2406.12527v1
Date: Tue, 18 Jun 2024 11:55:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 19:17:37.205253
Title: FuseGen: PLM Fusion for Data-generation based Zero-shot Learning
Title（参考訳）: FuseGen: PLM Fusion for Data Generation based Zero-shot Learning
Authors: Tianyuan Zou, Yang Liu, Peng Li, Jianqing Zhang, Jingjing Liu, Ya-Qin Zhang,
Abstract要約: FuseGenは、新しいデータ生成ベースのゼロショット学習フレームワークである。合成データセットからのサブセット選択のための新しい基準を導入する。選択されたサブセットは、各PLMに対してコンテキスト内フィードバックを提供し、データセットの品質を向上する。
参考スコア（独自算出の注目度）: 18.51772808242954
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Data generation-based zero-shot learning, although effective in training Small Task-specific Models (STMs) via synthetic datasets generated by Pre-trained Language Models (PLMs), is often limited by the low quality of such synthetic datasets. Previous solutions have primarily focused on single PLM settings, where synthetic datasets are typically restricted to specific sub-spaces and often deviate from real-world distributions, leading to severe distribution bias. To mitigate such bias, we propose FuseGen, a novel data generation-based zero-shot learning framework that introduces a new criteria for subset selection from synthetic datasets via utilizing multiple PLMs and trained STMs. The chosen subset provides in-context feedback to each PLM, enhancing dataset quality through iterative data generation. Trained STMs are then used for sample re-weighting as well, further improving data quality. Extensive experiments across diverse tasks demonstrate that FuseGen substantially outperforms existing methods, highly effective in boosting STM performance in a PLM-agnostic way. Code is provided in https://github.com/LindaLydia/FuseGen.
Abstract（参考訳）: データ生成に基づくゼロショット学習は、プレトレーニング言語モデル(PLM)が生成する合成データセットを介して、STM(Small Task-specific Model)のトレーニングに有効であるが、このような合成データセットの低品質によって制限されることが多い。以前は、合成データセットは特定の部分空間に制限され、しばしば現実世界の分布から逸脱し、重大な分布バイアスをもたらすような、単一のPLM設定に主に焦点が当てられていた。このようなバイアスを軽減するために、FuseGenを提案する。FuseGenはデータ生成に基づくゼロショット学習フレームワークで、複数のPLMと訓練されたSTMを利用して合成データセットからのサブセット選択のための新しい基準を導入する。選択されたサブセットは、各PLMに対してコンテキスト内フィードバックを提供し、反復的なデータ生成を通じてデータセットの品質を向上させる。トレーニングされたSTMはサンプルの再重み付けにも使用され、データ品質がさらに向上する。多様なタスクにわたる大規模な実験により、FuseGenは既存のメソッドよりも大幅に優れており、PLMに依存しない方法でSTMのパフォーマンスを高めるのに非常に効果的であることが示された。コードはhttps://github.com/LindaLydia/FuseGenで提供されている。

関連論文リスト

Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文参考訳（メタデータ） (2025-06-20T00:17:14Z)
SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-05-19T17:57:36Z)
Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。 LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文参考訳（メタデータ） (2025-02-09T16:43:32Z)
SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-27T15:12:27Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。 DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。微調整LDMをサンプリングすることで合成データを生成する。
論文参考訳（メタデータ） (2024-06-03T15:43:57Z)
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文参考訳（メタデータ） (2024-02-21T02:45:46Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。 ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-10-22T02:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。