論文の概要: Contrastive Decoding for Synthetic Data Generation in Low-Resource Language Modeling
- arxiv url: http://arxiv.org/abs/2510.08245v1
- Date: Thu, 09 Oct 2025 14:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.114107
- Title: Contrastive Decoding for Synthetic Data Generation in Low-Resource Language Modeling
- Title(参考訳): 低リソース言語モデリングにおける合成データ生成のコントラストデコーディング
- Authors: Jannek Ulm, Kevin Du, Vésteinn Snæbjarnarson,
- Abstract要約: 合成コーパス生成におけるコントラストデコーディングの利点について検討する。
優れた性能を持つモデルからの信号を増幅することにより、合成コーパスを作成し、元のトレーニングデータと混ぜる。
本研究は,合成データと実データとの混合による学習により,言語モデリングの目的と下流タスクの範囲の性能が向上することを示す。
- 参考スコア(独自算出の注目度): 9.380879437204277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are trained on huge amounts of textual data, and concerns have been raised that the limits of such data may soon be reached. A potential solution is to train on synthetic data sampled from LLMs. In this work, we build on this idea and investigate the benefits of contrastive decoding for generating synthetic corpora. In a controlled setting, we experiment with sampling corpora using the relative difference between a good and bad model trained on the same original corpus of 100 million words. By amplifying the signal from a model that has better performance, we create a synthetic corpus and mix it with the original training data. Our findings show that training on a mixture of synthesized and real data improves performance on the language modeling objective and a range of downstream tasks. In particular, we see that training with a mix of synthetic data from contrastive decoding benefits tasks that require more reasoning skills, while synthetic data from traditional sampling helps more on tasks dependent on surface level linguistic capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は大量のテキストデータに基づいて訓練されており、そのようなデータの限界がすぐに到達するのではないかと懸念されている。
潜在的な解決策は、LLMからサンプリングされた合成データをトレーニングすることである。
本研究では,このアイデアに基づいて合成コーパスを生成するためのコントラストデコーディングの利点について検討する。
制御された環境下では,1億ワードの原語コーパスで訓練された善と悪の相対的差を用いたサンプリングコーパスの実験を行った。
優れた性能を持つモデルからの信号を増幅することにより、合成コーパスを作成し、元のトレーニングデータと混ぜる。
本研究は,合成データと実データとの混合による学習により,言語モデリングの目的と下流タスクの範囲の性能が向上することを示す。
特に、対照的なデコードから合成データを混合したトレーニングは、推論スキルを必要とするタスクに有効であるのに対し、従来のサンプリングからの合成データは、表面レベルでの言語能力に依存するタスクに依存するのに役立ちます。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。
LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。
鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文 参考訳(メタデータ) (2025-02-09T16:43:32Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。