論文の概要: Steering Language Generation: Harnessing Contrastive Expert Guidance and
Negative Prompting for Coherent and Diverse Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2308.07645v2
- Date: Thu, 17 Aug 2023 06:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-08-21 21:56:08.488333
- Title: Steering Language Generation: Harnessing Contrastive Expert Guidance and
Negative Prompting for Coherent and Diverse Synthetic Data Generation
- Title(参考訳): ステアリング言語生成:コヒーレント・ディバース合成データ生成のための対照的な専門家ガイダンスと否定的プロンプト
- Authors: Charles O'Neill, Yuan-Sen Ting, Ioana Ciuca, Jack Miller, Thang Bui
- Abstract要約: 大規模言語モデル(LLM)は、高品質で実用性の高い合成データを生成する大きな可能性を秘めている。
本稿では,細調整された言語モデルと基本言語モデルのロジット分布の違いを強調する,対照的な専門家指導を紹介する。
STEER: Embedding Repositioningによるセマンティックテキストの強化。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) hold immense potential to generate synthetic
data of high quality and utility, which has numerous applications from
downstream model training to practical data utilisation. However, contemporary
models, despite their impressive capacities, consistently struggle to produce
both coherent and diverse data. To address the coherency issue, we introduce
contrastive expert guidance, where the difference between the logit
distributions of fine-tuned and base language models is emphasised to ensure
domain adherence. In order to ensure diversity, we utilise existing real and
synthetic examples as negative prompts to the model. We deem this dual-pronged
approach to logit reshaping as STEER: Semantic Text Enhancement via Embedding
Repositioning. STEER operates at inference-time and systematically guides the
LLMs to strike a balance between adherence to the data distribution (ensuring
semantic fidelity) and deviation from prior synthetic examples or existing real
datasets (ensuring diversity and authenticity). This delicate balancing act is
achieved by dynamically moving towards or away from chosen representations in
the latent space. STEER demonstrates improved performance over previous
synthetic data generation techniques, exhibiting better balance between data
diversity and coherency across three distinct tasks: hypothesis generation,
toxic and non-toxic comment generation, and commonsense reasoning task
generation. We demonstrate how STEER allows for fine-tuned control over the
diversity-coherency trade-off via its hyperparameters, highlighting its
versatility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、下流モデルトレーニングから実用的なデータ活用に至るまで、多くの応用がある高品質で実用性の高い合成データを生成する大きな可能性を秘めている。
しかし、現代のモデルは、その印象的な能力にもかかわらず、一貫性と多様なデータの両方を作り出すのに一貫して苦労している。
整合性問題に対処するために,我々は,細調整と基本言語モデルのロジット分布の違いを強調し,ドメインの整合性を確保するための対照的な専門家ガイダンスを導入する。
多様性を確保するため、既存の実例と合成例をモデルへの負のプロンプトとして利用します。
私たちはこの二重プロンプトによるlogitリシェープのアプローチを,steer: semantic text enhancement through embedded repositioningと定義しています。
STEERは推論時に動作し、LLMを体系的に誘導し、データ分散(セマンティックフィディリティの保証)と、以前の合成例や既存の実際のデータセット(多様性と信頼性の保証)からの逸脱のバランスを取る。
この微妙なバランスは、潜在空間における選択された表現の方向や方向を動的に移動させることによって達成される。
STEERは、従来の合成データ生成技術よりも優れたパフォーマンスを示し、仮説生成、有毒および非有毒なコメント生成、常識推論タスク生成の3つの異なるタスク間でデータの多様性と一貫性のバランスが改善されている。
我々は、STEERがハイパーパラメータを介して多様性コヒーレンシートレードオフを微調整して制御できる方法を示し、その汎用性を強調した。
関連論文リスト
- Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-10T03:38:11Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data [44.94133254226272]
既存の手法は、しばしば合成データの多様性と品質の限界に直面し、公正さと全体的なモデル精度を損なう。
本稿では,AIM-Fairを提案する。AIM-Fairは,これらの制限を克服し,アルゴリズムの公正性を促進するための最先端生成モデルの可能性を活用することを目的としている。
CelebAとUTKFaceデータセットの実験から、AIM-Fairは実用性を維持しながらモデルフェアネスを改善し、完全かつ部分的に調整されたモデルフェアネスのアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-03-07T18:26:48Z) - Synthetic Data is an Elegant GIFT for Continual Vision-Language Models [52.343627275005026]
GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。
我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。
提案手法は,様々な設定において従来手法よりも常に優れていた。
論文 参考訳(メタデータ) (2025-03-06T09:09:18Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Generative Modeling for Tabular Data via Penalized Optimal Transport
Network [2.0319002824093015]
Wasserstein generative adversarial network (WGAN) は、生成モデルにおいて顕著な改善である。
本稿では,新しい,頑健で解釈可能な辺縁補償型Wasserstein(MPW)損失に基づく生成型ディープニューラルネットワークPOTNetを提案する。
論文 参考訳(メタデータ) (2024-02-16T05:27:05Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Disentangled Recurrent Wasserstein Autoencoder [17.769077848342334]
Recurrent Wasserstein Autoencoder (R-WAE)はシーケンシャルデータの生成モデリングのための新しいフレームワークである。
R-WAEは入力シーケンスの表現を静的および動的因子に切り離す。
私達のモデルは無条件のビデオ生成およびdisentanglementの点では同じ設定の他のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-19T07:43:25Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。