論文の概要: PolyGen: Fully Synthetic Vision-Language Training via Multi-Generator Ensembles
- arxiv url: http://arxiv.org/abs/2602.01370v1
- Date: Sun, 01 Feb 2026 18:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.749755
- Title: PolyGen: Fully Synthetic Vision-Language Training via Multi-Generator Ensembles
- Title(参考訳): PolyGen: マルチジェネレータアンサンブルによる完全合成ビジョンランゲージトレーニング
- Authors: Leonardo Brusini, Cristian Sbrolli, Eugenio Lomurno, Toshihiko Yamasaki, Matteo Matteucci,
- Abstract要約: PolyGenは、単純なデータセットサイズよりも多様体カバレッジと合成リガーを優先することで、合成データ構築を再定義するフレームワークである。
PolyGenは、アーキテクチャ的に異なるジェネレータの交差をトレーニングするために、ポリリシックなアプローチを採用しており、事実上モデル固有のアーティファクトを疎外している。
- 参考スコア(独自算出の注目度): 31.627488377865745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data offers a scalable solution for vision-language pre-training, yet current state-of-the-art methods typically rely on scaling up a single generative backbone, which introduces generator-specific spectral biases and limits feature diversity. In this work, we introduce PolyGen, a framework that redefines synthetic data construction by prioritizing manifold coverage and compositional rigor over simple dataset size. PolyGen employs a Polylithic approach to train on the intersection of architecturally distinct generators, effectively marginalizing out model-specific artifacts. Additionally, we introduce a Programmatic Hard Negative curriculum that enforces fine-grained syntactic understanding. By structurally reallocating the same data budget from unique captions to multi-source variations, PolyGen achieves a more robust feature space, outperforming the leading single-source baseline (SynthCLIP) by +19.0% on aggregate multi-task benchmarks and on the SugarCrepe++ compositionality benchmark (+9.1%). These results demonstrate that structural diversity is a more data-efficient scaling law than simply increasing the volume of single-source samples.
- Abstract(参考訳): 合成データは、視覚言語による事前学習のためのスケーラブルなソリューションを提供するが、現在の最先端の手法は、通常は、ジェネレータ固有のスペクトルバイアスを導入し、機能の多様性を制限する、単一の生成バックボーンのスケールアップに依存している。
本稿では, 合成データ構築を再定義するフレームワークであるPolyGenを紹介する。
PolyGenは、アーキテクチャ的に異なるジェネレータの交差をトレーニングするために、ポリリシックなアプローチを採用しており、事実上モデル固有のアーティファクトを疎外している。
さらに,微粒な構文理解を強制するプログラム的ハード負のカリキュラムを導入する。
ユニークなキャプションからマルチソースのバリエーションまで、同じデータ予算を構造的に再配置することで、PolyGenはより堅牢な機能を実現し、主要なシングルソースベースライン(SynthCLIP)を、総合マルチタスクベンチマークとSugarCrepe++構成性ベンチマーク(+9.1%)で+19.0%上回った。
これらの結果は、構造的多様性が単一ソースサンプルの体積を増やすことよりも、よりデータ効率のよいスケーリング法則であることを示している。
関連論文リスト
- LOOPerSet: A Large-Scale Dataset for Data-Driven Polyhedral Compiler Optimization [0.9558392439655014]
LOOPerSetは、220,000のユニークな合成多面体プログラムから得られた2800万のラベル付きデータポイントを含む新しいパブリックデータセットである。
LOOPerSetのスケールと多様性は、学習したコストモデルをトレーニングし評価するための貴重なリソースとなります。
論文 参考訳(メタデータ) (2025-10-11T13:27:02Z) - Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation [4.268367038882249]
Genetic Promptは、遺伝的アルゴリズムとLarge Language Models(LLM)を組み合わせて合成データ生成を増強するフレームワークである。
提案手法は, 意味的テキスト属性を遺伝子配列として扱い, LLMを利用して交叉・突然変異操作をシミュレートする。
以上の結果から, 遺伝的プロンプトは, 広範囲のNLPアプリケーションに対して, 高品質な合成データを生成する有効な方法であることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-02T07:35:20Z) - Aggregated Structural Representation with Large Language Models for Human-Centric Layout Generation [7.980497203230983]
本稿では,グラフネットワークを大規模言語モデル (LLM) と統合して構造情報を保存し,生成能力を向上するアグリゲーション構造表現 (ASR) モジュールを提案する。
RICOデータセットに対する包括的評価は、平均的相互接続(mIoU)と、クラウドソーシングによるユーザスタディによる定性の両方を用いて、ASRの強い性能を示す。
論文 参考訳(メタデータ) (2025-05-26T06:17:21Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。
データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - CustOmics: A versatile deep-learning based strategy for multi-omics
integration [0.0]
本稿では,高次元マルチソース統合の場合のデータセットに適応する,カスタマイズ可能なオートエンコーダモデルを構築するための新しい戦略を提案する。
我々は,統合戦略が潜在表現に与える影響を評価し,新しい手法であるCustOmicsを提案する最善の戦略を組み合わせる。
論文 参考訳(メタデータ) (2022-09-12T14:20:29Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。