論文の概要: UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation
- arxiv url: http://arxiv.org/abs/2510.24262v1
- Date: Tue, 28 Oct 2025 10:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.018108
- Title: UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation
- Title(参考訳): UtilGen: デュアルレベルタスク適応によるユーティリティ中心の生成データ拡張
- Authors: Jiyu Guo, Shuo Yang, Yiming Huang, Yancheng Long, Xiaobo Xia, Xiu Su, Bo Zhao, Zeke Xie, Liqiang Nie,
- Abstract要約: UtilGenは、コンピュータビジョンタスクのための新しいユーティリティ中心のデータ拡張フレームワークである。
UtilGenは、常に優れたデータセットを達成しており、平均精度は以前のSOTAよりも3.87%向上している。
データの影響と分布のさらなる分析により、UtilGenはより影響のあるタスク関連合成データを生成することが明らかになった。
- 参考スコア(独自算出の注目度): 70.2215233759276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation using generative models has emerged as a powerful paradigm for enhancing performance in computer vision tasks. However, most existing augmentation approaches primarily focus on optimizing intrinsic data attributes -- such as fidelity and diversity -- to generate visually high-quality synthetic data, while often neglecting task-specific requirements. Yet, it is essential for data generators to account for the needs of downstream tasks, as training data requirements can vary significantly across different tasks and network architectures. To address these limitations, we propose UtilGen, a novel utility-centric data augmentation framework that adaptively optimizes the data generation process to produce task-specific, high-utility training data via downstream task feedback. Specifically, we first introduce a weight allocation network to evaluate the task-specific utility of each synthetic sample. Guided by these evaluations, UtilGen iteratively refines the data generation process using a dual-level optimization strategy to maximize the synthetic data utility: (1) model-level optimization tailors the generative model to the downstream task, and (2) instance-level optimization adjusts generation policies -- such as prompt embeddings and initial noise -- at each generation round. Extensive experiments on eight benchmark datasets of varying complexity and granularity demonstrate that UtilGen consistently achieves superior performance, with an average accuracy improvement of 3.87% over previous SOTA. Further analysis of data influence and distribution reveals that UtilGen produces more impactful and task-relevant synthetic data, validating the effectiveness of the paradigm shift from visual characteristics-centric to task utility-centric data augmentation.
- Abstract(参考訳): 生成モデルを用いたデータ拡張は,コンピュータビジョンタスクの性能向上のための強力なパラダイムとして登場した。
しかし、既存の拡張アプローチのほとんどは、主に、タスク固有の要求を無視しながら、視覚的に高品質な合成データを生成するために、本質的なデータ属性(忠実さや多様性など)を最適化することに焦点を当てている。
しかし、データジェネレータは、さまざまなタスクやネットワークアーキテクチャにおいて、トレーニングデータ要求が著しく異なるため、下流タスクの必要性を考慮することが不可欠である。
これらの制約に対処するため、UtilGenを提案する。UtilGenは、データ生成プロセスを適応的に最適化し、下流のタスクフィードバックを介してタスク固有の高ユーティリティなトレーニングデータを生成する、新しいユーティリティ中心のデータ拡張フレームワークである。
具体的には,まず,各合成試料のタスク固有性を評価するために,重み付けネットワークを導入する。
モデルレベルの最適化は、生成モデルを下流タスクに調整し、(2)インスタンスレベルの最適化は、各生成ラウンドでの即時埋め込みや初期ノイズなど、生成ポリシーを調整します。
様々な複雑さと粒度の8つのベンチマークデータセットに対する大規模な実験は、UtilGenが常に優れたパフォーマンスを達成しており、平均精度は以前のSOTAよりも3.87%向上していることを示している。
データの影響と分布のさらなる分析により、UtilGenは、視覚特性中心からタスクユーティリティ中心のデータ拡張へのパラダイムシフトの有効性を検証し、より影響のあるタスク関連合成データを生成することが明らかになった。
関連論文リスト
- Sequential Data Augmentation for Generative Recommendation [54.765568804267645]
生成的レコメンデーションはパーソナライズされたシステムにおいて重要な役割を担い、ユーザの将来のインタラクションを過去の行動シーケンスから予測する。
データ拡張(Data augmentation)は、ユーザインタラクション履歴からトレーニングデータを構築するプロセスである。
我々は、サンプリングプロセスとして拡張をモデル化し、その結果のトレーニング分布の柔軟な制御を可能にする、原則化されたフレームワークであるGenPASを提案する。
ベンチマークと産業データセットを用いた実験により、GenPASは既存の戦略よりも精度、データ効率、パラメータ効率が優れていることが示された。
論文 参考訳(メタデータ) (2025-09-17T02:53:25Z) - Middo: Model-Informed Dynamic Data Optimization for Enhanced LLM Fine-Tuning via Closed-Loop Learning [44.53583316198435]
Supervised Fine-Tuning (SFT) Large Language Modelsは高品質なトレーニングデータに依存している。
自己進化型モデル駆動動的データ最適化フレームワークであるMiddoを紹介した。
その結果,Middoはシードデータの品質を継続的に向上し,LLMの性能を平均7.15%向上させることができた。
論文 参考訳(メタデータ) (2025-08-29T12:47:27Z) - A Time-Series Data Augmentation Model through Diffusion and Transformer Integration [0.6437284704257459]
ディープニューラルネットワークは通常、トレーニングのために大量のデータを必要とする。
本稿では,Diffusion モデルと Transformer モデルを組み合わせた簡易かつ効率的な手法を提案する。
ベンチマークとして拡張データを適用したモデルの性能向上を利用して,高品質な拡張データを生成する能力を示す。
論文 参考訳(メタデータ) (2025-05-01T09:40:45Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。
データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。