論文の概要: Does Training on Synthetic Data Make Models Less Robust?
- arxiv url: http://arxiv.org/abs/2502.07164v2
- Date: Sun, 16 Mar 2025 03:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:58:08.272407
- Title: Does Training on Synthetic Data Make Models Less Robust?
- Title(参考訳): 合成データのトレーニングはモデルにロバストさを損なうか?
- Authors: Lingze Zhang, Ellie Pavlick,
- Abstract要約: 我々はLlama-2-7B-hfモデルを用いて自然言語推論(NLI)タスクのシミュレーション実験を行った。
以上の結果から,人工的なデータは期待通りに盲点を補強するものではないことが示唆された。
- 参考スコア(独自算出の注目度): 17.69532318920725
- License:
- Abstract: An increasingly common practice is to train large language models (LLMs) using synthetic data. Often this synthetic data is produced by the same or similar LLMs as those it is being used to train. This raises the question of whether the synthetic data might in fact exacerbate certain "blindspots" by reinforcing heuristics that the LLM already encodes. In this paper, we conduct simulated experiments on the natural language inference (NLI) task with Llama-2-7B-hf models. We use MultiNLI as the general task and HANS, a targeted evaluation set designed to measure the presence of specific heuristic strategies for NLI, as our "blindspot" task. Our goal is to determine whether performance disparities between the general and blind spot tasks emerge. Our results indicate that synthetic data does not reinforce blindspots in the way we expected. Specifically, we see that, while fine-tuning with synthetic data doesn't necessarily reduce the use of the heuristic, it also does not make it worse as we hypothesized.
- Abstract(参考訳): ますます一般的なプラクティスは、合成データを使用して大きな言語モデル(LLM)を訓練することである。
この合成データは、しばしば訓練に使われているものと同じまたは類似のLCMによって生成される。
このことは、合成データが、LLMが既にエンコードしているヒューリスティックを補強することによって、実際に特定の「盲点」を悪化させるかどうかという問題を提起する。
本稿では,Llama-2-7B-hfモデルを用いた自然言語推論(NLI)タスクのシミュレーション実験を行う。
我々は、一般的なタスクとしてMultiNLIと、NLIの特定のヒューリスティック戦略の存在を測定するための目標評価セットであるHANSを、我々の"盲点"タスクとして使用しています。
私たちのゴールは、一般タスクと盲点タスクのパフォーマンス格差が出現するかどうかを判断することです。
以上の結果から, 人工的なデータは, 期待通りに盲点を補強するものではないことが示唆された。
特に、合成データによる微調整は、必ずしもヒューリスティックの使用を減少させるわけではないが、仮説上は悪化させるものではない。
関連論文リスト
- Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。
LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。
鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文 参考訳(メタデータ) (2025-02-09T16:43:32Z) - FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data [13.108807408880645]
本稿では,文書から抽出したコンテキストグラフのマルチホップ推論を利用した合成データ生成手法であるCG2Cを提案する。
我々のファクトチェッカーモデルであるFactCGは、同じバックボーンモデルを用いて、より接続された推論によるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2025-01-28T18:45:07Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Self-supervision versus synthetic datasets: which is the lesser evil in
the context of video denoising? [11.0189148044343]
監督されたトレーニングは、画像やビデオのデノベーションの最先端の結果につながった。
入手が難しいノイズとクリーンのペアの大規模なデータセットが必要です。
いくつかの自己教師型フレームワークは、ノイズの多いデータに基づいて、そのようなデノベーションネットワークを直接訓練するために提案されている。
論文 参考訳(メタデータ) (2022-04-25T08:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。