論文の概要: Does Training on Synthetic Data Make Models Less Robust?
- arxiv url: http://arxiv.org/abs/2502.07164v1
- Date: Tue, 11 Feb 2025 01:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:40.979368
- Title: Does Training on Synthetic Data Make Models Less Robust?
- Title(参考訳): 合成データのトレーニングはモデルにロバストさを損なうか?
- Authors: Lingze Zhang, Ellie Pavlick,
- Abstract要約: 我々はLlama-2-7B-hfモデルを用いて自然言語推論(NLI)タスクのシミュレーション実験を行った。
以上の結果から,人工的なデータは期待通りに盲点を補強するものではないことが示唆された。
- 参考スコア(独自算出の注目度): 17.69532318920725
- License:
- Abstract: An increasingly common practice is to train large language models (LLMs) using synthetic data. Often this synthetic data is produced by the same or similar LLMs as those it is being used to train. This raises the question of whether the synthetic data might in fact exacerbate certain "blindspots" by reinforcing heuristics that the LLM already encodes. In this paper, we conduct simulated experiments on the natural language inference (NLI) task with Llama-2-7B-hf models. We use MultiNLI as the general task and HANS, a targeted evaluation set designed to measure the presence of specific heuristic strategies for NLI, as our "blindspot" task. Our goal is to determine whether performance disparities between the general and blind spot tasks emerge. Our results indicate that synthetic data does not reinforce blindspots in the way we expected. Specifically, we see that, while fine-tuning with synthetic data doesn't necessarily reduce the use of the heuristic, it also does not make it worse as we hypothesized.
- Abstract(参考訳): ますます一般的なプラクティスは、合成データを使用して大きな言語モデル(LLM)を訓練することである。
この合成データは、しばしば訓練に使われているものと同じまたは類似のLCMによって生成される。
このことは、合成データが、LLMが既にエンコードしているヒューリスティックを補強することによって、実際に特定の「盲点」を悪化させるかどうかという問題を提起する。
本稿では,Llama-2-7B-hfモデルを用いた自然言語推論(NLI)タスクのシミュレーション実験を行う。
我々は、一般的なタスクとしてMultiNLIと、NLIの特定のヒューリスティック戦略の存在を測定するための目標評価セットであるHANSを、我々の"盲点"タスクとして使用しています。
私たちのゴールは、一般タスクと盲点タスクのパフォーマンス格差が出現するかどうかを判断することです。
以上の結果から, 人工的なデータは, 期待通りに盲点を補強するものではないことが示唆された。
特に、合成データによる微調整は、必ずしもヒューリスティックの使用を減少させるわけではないが、仮説上は悪化させるものではない。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - On the Benefits of Fine-Grained Loss Truncation: A Case Study on
Factuality in Summarization [25.282499952331094]
Loss Truncation (LT) は、トレーニング中にノイズのあるサンプルを適応的に除去するために、標準的なログ損失を変更するアプローチである。
LTだけでは、様々なデータセット上でかなり多くの幻覚的実体が得られることを示す。
本研究では, 微細なNLL損失と微細なデータクリーニング戦略を提案し, いくつかのデータセットにおける幻覚減少の改善を観察する。
論文 参考訳(メタデータ) (2024-03-09T04:20:26Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Self-supervision versus synthetic datasets: which is the lesser evil in
the context of video denoising? [11.0189148044343]
監督されたトレーニングは、画像やビデオのデノベーションの最先端の結果につながった。
入手が難しいノイズとクリーンのペアの大規模なデータセットが必要です。
いくつかの自己教師型フレームワークは、ノイズの多いデータに基づいて、そのようなデノベーションネットワークを直接訓練するために提案されている。
論文 参考訳(メタデータ) (2022-04-25T08:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。