Fugu-MT 論文翻訳(概要): Synthetic Data Generation Using Large Language Models: Advances in Text and Code

論文の概要: Synthetic Data Generation Using Large Language Models: Advances in Text and Code

arxiv url: http://arxiv.org/abs/2503.14023v1
Date: Tue, 18 Mar 2025 08:34:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:12.569207
Title: Synthetic Data Generation Using Large Language Models: Advances in Text and Code
Title（参考訳）: 大規模言語モデルを用いた合成データ生成:テキストとコードの進歩
Authors: Mihai Nadas, Laura Diosan, Andreea Tomescu,
Abstract要約: 大規模言語モデル(LLM)は、自然言語とコードの両方で合成トレーニングデータを生成する新たな可能性を開いた。これらの手法が,分類や質問応答などの低リソースなタスクをどのように強化するかを示す。生成したテキストの事実的不正確さ、スタイリスティックなリアリズムの欠如、バイアス増幅のリスクといった課題に対処する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have unlocked new possibilities for generating synthetic training data in both natural language and code. By producing artificial but task-relevant examples, these models can significantly augment or even replace real-world datasets, especially when labeled data is scarce or sensitive. This paper surveys recent advances in using LLMs to create synthetic text and code, emphasizing prompt-based generation, retrieval-augmented pipelines, and iterative self-refinement. We show how these methods enrich low-resource tasks such as classification and question answering, as well as code-centric applications such as instruction tuning, code translation, and bug repair, by enabling automated verification of functional correctness. Alongside potential benefits like cost-effectiveness, broad coverage, and controllable diversity, we address challenges such as factual inaccuracies in generated text, lack of stylistic realism, and the risk of bias amplification. Proposed mitigations include filtering and weighting outputs and reinforcement learning with execution feedback for code. We conclude with open research directions like automated prompt engineering, cross-modal data synthesis, and robust evaluation frameworks, highlighting the importance of LLM-generated synthetic data in advancing AI while emphasizing ethical and quality safeguards.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語とコードの両方で合成トレーニングデータを生成する新たな可能性を開いた。人工的だがタスク関連のある例を生成することによって、これらのモデルは、特にラベル付きデータが不足している場合やセンシティブな場合、現実世界のデータセットを大幅に拡張または置き換えることが可能になる。本稿では,LLMを用いた合成テキストとコードの作成,即時生成,検索拡張パイプライン,反復的自己修正など,最近の進歩について調査する。これらの手法は,機能的正当性の自動検証を可能にすることで,分類や質問応答などの低リソースタスクや,命令チューニングやコード翻訳,バグ修正といったコード中心のアプリケーションをどのように強化するかを示す。コスト効率、広範なカバレッジ、制御可能な多様性といった潜在的なメリットに加えて、生成したテキストの事実的不正確さ、スタイリスティックなリアリズムの欠如、バイアス増幅のリスクといった課題にも対処する。提案されている緩和策には、フィルタリングと出力の重み付け、コードの実行フィードバックによる強化学習などがある。我々は、自動プロンプトエンジニアリング、クロスモーダルデータ合成、ロバストな評価フレームワークなどのオープンな研究の方向性で締めくくり、倫理的および品質的な保護を強調しながら、AIの進歩におけるLLM生成合成データの重要性を強調した。

関連論文リスト

CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback [21.627909324788597]
大規模言語モデルの訓練には高品質な命令コードペアの獲得が不可欠である。 2つのLLMエージェント間の反復的な相互作用を通じてコードデータを合成するフレームワークであるCodeEvoを提案する。
論文参考訳（メタデータ） (2025-07-25T16:12:51Z)
FASTGEN: Fast and Cost-Effective Synthetic Tabular Data Generation with LLMs [3.703188184729035]
合成データ生成は、現実のデータ収集と使用がコストと不足によって制限されるシナリオにおいて、重要なソリューションである。個々のレコードを生成するために大きな言語モデルを直接使用する既存のアプローチは、禁止時間とコスト負担を個別に課している。 LLMを利用して各フィールドの分布を再利用可能なサンプリングスクリプトに推論してエンコードする,現実的な表形式データ合成のための高速で費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2025-07-21T17:51:46Z)
Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data [0.0]
本稿では,Large Language Models(LLMs)を用いた合成データ生成によるAPR(Automated Program repair)の向上手法を提案する。提案手法は, 合成試料生成と厳密な品質評価という2段階のプロセスを通じて, この制限に対処する。 VulRepairテストセットデータセットの実験評価では、完全予測率の統計的に有意な改善が見られた。
論文参考訳（メタデータ） (2025-05-12T09:14:20Z)
Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2025-05-06T07:57:16Z)
ClarifyCoder: Clarification-Aware Fine-Tuning for Programmatic Problem Solving [3.683434365857386]
ClarifyCoderは、合成データ生成と命令チューニングを備えた新しいフレームワークである。我々は、曖昧な要求を認識してクエリする基本的な能力は、モデル自体に固有のものであるべきだと論じている。提案手法は,(1)不完全あるいは曖昧な要件に直面した場合に,即時コード生成よりも明確化を求めることをモデルに教える,微調整戦略である。
論文参考訳（メタデータ） (2025-04-23T00:34:39Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
Synthetic Text Generation for Training Large Language Models via Gradient Matching [27.74603049449281]
合成可読テキストを生成するための理論的に厳密な最初のアプローチを提案する。生成した合成テキストは、実際のデータを微調整して得られた解の近傍にモデルを収束させることを保証できる。
論文参考訳（メタデータ） (2025-02-24T19:49:15Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文参考訳（メタデータ） (2024-10-29T17:55:00Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文参考訳（メタデータ） (2024-04-15T17:49:16Z)
Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
Generating Faithful Synthetic Data with Large Language Models: A Case Study in Computational Social Science [13.854807858791652]
我々は、合成データ生成における広範囲な問題に取り組み、その生成分布は、研究者が関心を持つ実世界のデータ分布とは異なることが多い。本研究では,合成データの忠実度を高めるための3つの戦略について検討する。本稿では,特定のタスクに対して高忠実度合成データを生成する方法について提案する。
論文参考訳（メタデータ） (2023-05-24T11:27:59Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。