論文の概要: LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives
- arxiv url: http://arxiv.org/abs/2407.01490v2
- Date: Fri, 19 Jul 2024 10:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 22:38:24.147716
- Title: LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives
- Title(参考訳): LLM See, LLM Do: 識別不能なオブジェクトをターゲットとしたデータ生成を支援する
- Authors: Luísa Shimabucoro, Sebastian Ruder, Julia Kreutzer, Marzieh Fadaee, Sara Hooker,
- Abstract要約: 合成データ統合の結果を系統的に研究し, モデル特性の受動的継承の影響について検討した。
合成データが「中立」に見える場合でも、モデルが特定の属性に対して驚くほど敏感であることがわかった。
本研究では,非微分不可能な目的に応じて意図的に合成データを制約する用語として,アクティブ継承を提案する。
- 参考スコア(独自算出の注目度): 44.781967004009715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of synthetic data raises new questions about how models generating the data can influence other large language models (LLMs) via distilled data. To start, our work exhaustively characterizes the impact of passive inheritance of model properties by systematically studying the consequences of synthetic data integration. We provide one of the most comprehensive studies to-date of how the source of synthetic data shapes models' internal biases, calibration and generations' textual attributes and preferences. We find that models are surprisingly sensitive towards certain attributes even when the synthetic data prompts appear "neutral". which invites the question whether this sensitivity can be exploited for good. Our findings invite the question can we explicitly steer the models towards the properties we want at test time by exploiting the data generation process? This would have historically been considered infeasible due to the cost of collecting data with a specific characteristic or objective in mind. However, improvement in the quality of synthetic data, as well as a shift towards general-purpose models designed to follow a diverse way of instructions, means this question is timely. We propose active inheritance as a term to describe intentionally constraining synthetic data according to a non-differentiable objective. We demonstrate how active inheritance can steer the generation profiles of models towards desirable non-differentiable attributes, e.g. high lexical diversity or low toxicity.
- Abstract(参考訳): 合成データの普及により、データを生成するモデルが蒸留データを介して他の大規模言語モデル(LLM)にどのように影響を与えるかについて、新たな疑問が持ち上がる。
まず,本研究は,合成データ統合の結果を体系的に研究することによって,モデル特性の受動的継承の影響を徹底的に評価する。
合成データのソースがモデルの内部バイアスやキャリブレーション、世代別テキスト属性や嗜好をどのように形成するかについて、これまでで最も包括的な研究の1つを提供する。
合成データのプロンプトが「中性」に見える場合でも、モデルが特定の属性に対して驚くほど敏感であることがわかった。
この感度をうまく活用できるかどうかという疑問が浮かび上がっています
私たちの発見は、データ生成プロセスを活用することで、テスト時に望むプロパティに向けてモデルを明示的に操れるか、という疑問を提起します。
これは歴史的に、特定の特徴や目的を念頭に置いてデータを収集するコストのために実現不可能であると考えられていた。
しかし、合成データの質の向上や、多様な指示方法に従うように設計された汎用モデルへの移行は、この疑問をタイムリーに意味している。
本研究では,非微分不可能な目的に応じて意図的に合成データを制約する用語として,アクティブ継承を提案する。
本研究では, モデルの生成プロファイルを, 好適な非分化性属性, 例えば, 高語彙的多様性や低毒性に制御できることを実証する。
関連論文リスト
- zGAN: An Outlier-focused Generative Adversarial Network For Realistic Synthetic Data Generation [0.0]
ブラックスワン」は古典的な機械学習モデルの性能に挑戦している。
本稿では、外部特性を持つ合成データを生成する目的で開発されたzGANモデルアーキテクチャの概要について述べる。
リアルな合成データ生成の有望な結果と、モデル性能のアップリフト能力を示す。
論文 参考訳(メタデータ) (2024-10-28T07:55:11Z) - Will the Inclusion of Generated Data Amplify Bias Across Generations in Future Image Classification Models? [29.71939692883025]
画像分類タスクにおける生成データの影響について,特にバイアスに着目して検討する。
数百の実験がColorized MNIST、CIFAR-20/100、Hard ImageNetデータセットで実施されている。
本研究は, 実世界の応用において, 合成データの公平性に関する議論が進行中であることを示すものである。
論文 参考訳(メタデータ) (2024-10-14T05:07:06Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。