論文の概要: Efficient Embedding-based Synthetic Data Generation for Complex Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2603.22294v1
- Date: Sun, 15 Mar 2026 00:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.024988
- Title: Efficient Embedding-based Synthetic Data Generation for Complex Reasoning Tasks
- Title(参考訳): 複雑な推論タスクのための効率的な埋め込み型合成データ生成
- Authors: Srideepika Jayaraman, Achille Fokoue, Dhaval Patel, Jayant Kalagnanam,
- Abstract要約: 埋め込み空間における生成データの多様性と分布を解析する。
本稿では,データの多様性を向上し,継続的に性能を向上する埋込み型サンプリング用パイプラインを提案する。
- 参考スコア(独自算出の注目度): 8.173132368801783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic Data Generation (SDG), leveraging Large Language Models (LLMs), has recently been recognized and broadly adopted as an effective approach to improve the performance of smaller but more resource and compute efficient LLMs through fine-tuning. A key challenge in SDG is ensuring the quality and diversity of the generated data. In this paper, we analyze the diversity and distribution of generated data in the embedding space, and demonstrate a strong correlation between the density of examples within a specific neighborhood and the accuracy of predictions on examples drawn from that region. Building on this insight, we present a targeted pipeline for embedding-based sampling that enhances data diversity and consistently improves performance across several benchmarks.
- Abstract(参考訳): LLM(Large Language Models)を利用した合成データ生成(SDG)は,より小型で資源の少ないLLMの性能向上に有効な手法として認識され,広く採用されている。
SDGの重要な課題は、生成されたデータの品質と多様性を保証することだ。
本稿では, 埋め込み空間における生成データの多様性と分布を分析し, 特定の近傍におけるサンプルの密度と, その領域から引き出されたサンプルの予測精度との間に強い相関関係を示す。
この知見に基づいて、データの多様性を高め、複数のベンチマークで継続的にパフォーマンスを向上させる、埋め込みベースのサンプリングを目的としたパイプラインを提案する。
関連論文リスト
- Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs [39.84010804274527]
本稿では、解釈可能な機能空間におけるデータの多様性を測定する機能活性化カバレッジ(FAC)を紹介する。
この指標に基づいて,FAC合成という多様性駆動型データ合成フレームワークを提案する。
実験により,本手法は様々なタスクにおけるデータ多様性とダウンストリーム性能の両方を一貫して改善することが示された。
論文 参考訳(メタデータ) (2026-02-11T00:23:13Z) - Exploring the Heterogeneity of Tabular Data: A Diversity-aware Data Generator via LLMs [7.355858495660162]
DATE(Diversity-Aware Tabular data gEnerator)は、文脈内学習のための高品質で分散的な例を作成するフレームワークである。
DATEはLarge Language Models(LLM)を使用して、分割された分布の多様性をフィードバックとして決定木推論で探索し、各サブセットに対して高品質なラベル付きデータを生成する。
DATEは平均23.75%のエラー率で100のデータしか生成しない。
論文 参考訳(メタデータ) (2025-12-26T08:02:51Z) - Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。