論文の概要: AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions
- arxiv url: http://arxiv.org/abs/2605.13149v1
- Date: Wed, 13 May 2026 08:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.900362
- Title: AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions
- Title(参考訳): 獲得合成: 獲得関数を用いたターゲットデータ生成
- Authors: Ishika Agarwal, Sofia Stoica, Emre Can Acikgoz, Pradeep Natarajan, Mahdi Namazifar, Jiaqi Ma, Dilek Hakkani-Tür,
- Abstract要約: 本稿では,獲得関数を報酬モデルとして用い,高品質な合成データを生成するための言語モデルを訓練する。
数学、医学的質問応答、コーディングの古典的検証タスクについて実験を行った。
実験結果から,AcquisitionSynthesisデータを用いて訓練した学生モデルは,分配作業において良好な性能を示し,破滅的な忘れ込みに対してより堅牢であることが示唆された。
- 参考スコア(独自算出の注目度): 20.627474919747275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data quality remains a critical bottleneck in developing capable, competitive models. Researchers have explored many ways to generate top quality samples. Some works rely on rejection sampling: generating lots of synthetic samples and filtering out low-quality samples. Other works rely on larger or closed-source models to extract model weaknesses, necessary skills, or a curriculum off of which to base data generation. These works have one common limitation: there is no quantitative approach to measure the impact of the generated samples on the downstream learner. Active learning literature provides exactly this, in the form of acquisition functions. Acquisition functions measure the informativeness and/or influence of data, providing interpretable, model-centric signals. Inspired by this, we propose AcquisitionSynthesis: using acquisition functions as reward models to train language models to generate higher-quality synthetic data. We conduct experiments on classic verifiable tasks of math, medical question-answering, and coding. Our experimental results indicate that (1) student models trained with AcquisitionSynthesis data achieve good performance on in-distribution tasks (2-7% gain) and is more robust to catastrophic forgetting, and (2) AcquisitionSynthesis models can generate data for other models and for low-to-high resource training paradigms. By leveraging acquisition rewards, we seek to demonstrate a principled path toward model-aware self-improvement that surpasses static datasets.
- Abstract(参考訳): データ品質は、有能で競争力のあるモデルを開発する上で、依然として重要なボトルネックである。
研究者たちは、最高品質のサンプルを生成する多くの方法を模索してきた。
いくつかの研究は、多くの合成サンプルを生成し、低品質のサンプルをフィルタリングする、拒絶サンプリングに依存している。
他の作品では、モデル弱点、必要なスキル、あるいはデータ生成の基礎となるカリキュラムを抽出するために、より大きなまたはクローズドソースモデルに依存している。
生成されたサンプルが下流の学習者に与える影響を測定する定量的なアプローチは存在しない。
アクティブラーニング文学は、取得関数の形で、まさにこれを提供する。
取得関数はデータの情報性および/または影響を測定し、解釈可能なモデル中心の信号を提供する。
そこで本研究では,獲得関数を報酬モデルとして用いて,高品質な合成データを生成するための言語モデルを訓練する,AcquisitionSynthesisを提案する。
数学、医学的質問応答、コーディングの古典的検証タスクについて実験を行った。
実験結果から,(1) 獲得合成データを用いて訓練した学生モデルは, 分配タスク(2-7%) において良好な性能を示し, 破滅的な忘れ方に対してより堅牢であり, (2) 獲得合成モデルは, 他モデルや低レベルの資源訓練パラダイムに対してデータを生成することができることがわかった。
獲得報酬を活用することで、静的データセットを超越したモデル認識による自己改善への原則的な道筋を実証することを模索する。
関連論文リスト
- Boosting Statistic Learning with Synthetic Data from Pretrained Large Models [6.596689283714373]
本稿では,ドメイン固有の統計的手法を用いて合成データを生成し,体系的にフィルタリングする新しいエンドツーエンドフレームワークを提案する。
実験では,様々な設定で予測性能が一貫した改善を示した。
論文 参考訳(メタデータ) (2025-05-08T06:55:22Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。