論文の概要: Increasing the Utility of Synthetic Images through Chamfer Guidance
- arxiv url: http://arxiv.org/abs/2508.10631v1
- Date: Thu, 14 Aug 2025 13:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.329033
- Title: Increasing the Utility of Synthetic Images through Chamfer Guidance
- Title(参考訳): Chamfer Guidanceによる合成画像の有用性向上
- Authors: Nicola Dall'Asen, Xiaofeng Zhang, Reyhane Askari Hemmat, Melissa Hall, Jakob Verbeek, Adriana Romero-Soriano, Michal Drozdzal,
- Abstract要約: Chamfer Guidanceは、合成データの質と多様性を特徴付けるトレーニング不要なガイダンスアプローチである。
提案手法は,2枚以上の実画像を用いて,最先端の撮影性能を実現する。
- 参考スコア(独自算出の注目度): 26.787546537428614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional image generative models hold considerable promise to produce infinite amounts of synthetic training data. Yet, recent progress in generation quality has come at the expense of generation diversity, limiting the utility of these models as a source of synthetic training data. Although guidance-based approaches have been introduced to improve the utility of generated data by focusing on quality or diversity, the (implicit or explicit) utility functions oftentimes disregard the potential distribution shift between synthetic and real data. In this work, we introduce Chamfer Guidance: a training-free guidance approach which leverages a handful of real exemplar images to characterize the quality and diversity of synthetic data. We show that by leveraging the proposed Chamfer Guidance, we can boost the diversity of the generations w.r.t. a dataset of real images while maintaining or improving the generation quality on ImageNet-1k and standard geo-diversity benchmarks. Our approach achieves state-of-the-art few-shot performance with as little as 2 exemplar real images, obtaining 96.4\% in terms of precision, and 86.4\% in terms of distributional coverage, which increase to 97.5\% and 92.7\%, respectively, when using 32 real images. We showcase the benefits of the Chamfer Guidance generation by training downstream image classifiers on synthetic data, achieving accuracy boost of up to 15\% for in-distribution over the baselines, and up to 16\% in out-of-distribution. Furthermore, our approach does not require using the unconditional model, and thus obtains a 31\% reduction in FLOPs w.r.t. classifier-free-guidance-based approaches at sampling time.
- Abstract(参考訳): 条件付き画像生成モデルは、無限量の合成トレーニングデータを生成することをかなり約束する。
しかし、近年の世代品質の進歩は、世代多様性を犠牲にしており、これらのモデルが合成トレーニングデータの源泉となることを制限している。
品質や多様性を重視して生成されたデータの有用性を改善するためのガイダンスベースのアプローチが導入されたが、(単純または明示的な)ユーティリティ機能は、しばしば合成データと実データ間の潜在的分散シフトを無視する。
本稿では,少数の実例画像を利用して合成データの質と多様性を特徴付ける,トレーニング不要なガイダンス手法であるChamfer Guidanceを紹介する。
提案したChamfer Guidanceを利用することで、ImageNet-1kおよび標準ジオ多様性ベンチマークの生成品質を維持したり改善したりしながら、実画像のデータセットの世代単位の多様性を高めることができることを示す。
提案手法は,32個の実画像を使用する場合,96.4\%,86.4\%,97.5\%,92.7\%となる分布被覆率の2つの実画像を用いて,最先端のショット性能を実現する。
合成データに基づいて下流画像分類器を訓練し, ベースライン上での分布に最大15 %, アウト・オブ・アウト・ディストリビューションに最大16 %の精度向上を実現することにより, シャンファー誘導生成の利点を実証した。
さらに,本手法は無条件モデルを必要としないため,サンプリング時にFLOPs w.r.t. 分類自由誘導に基づくアプローチを31 %削減できる。
関連論文リスト
- LoFT: LoRA-fused Training Dataset Generation with Few-shot Guidance [96.6544564242316]
本稿では,Few-shot Guidanceを用いたLoRA-Fused Training-data Generationという新しいデータセット生成フレームワークを提案する。
提案手法は,個々の実画像にLoRA重みを微調整し,推定時に融合させ,実画像の特徴を組み合わせた合成画像を生成し,データの多様性と忠実度を向上させる。
実験の結果,LoFT生成データに対するトレーニングは,他の合成データセット法より一貫して優れており,データセットのサイズが大きくなるにつれて精度が著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-05-16T21:17:55Z) - Feature-to-Image Data Augmentation: Improving Model Feature Extraction with Cluster-Guided Synthetic Samples [4.041834517339835]
本研究ではFICAugを紹介した。FICAugは機能間データ拡張フレームワークである。
構造化された合成サンプルを生成することにより、限られたデータ条件下でのモデル一般化を改善するように設計されている。
実験の結果, FICAugは分類精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - DepthFM: Fast Monocular Depth Estimation with Flow Matching [22.206355073676082]
現在の識別的深さ推定法は、しばしばぼやけた人工物を生成するが、生成的アプローチはノイズ・ツー・ディープ・トランスポートの曲率によるサンプリングが遅い。
本手法は,画像と深度分布間の直接輸送として深度推定をフレーミングすることで,これらの課題に対処する。
提案手法は, 複雑な自然シーンの標準ベンチマークにおいて, サンプリング効率を向上し, 学習に最小限の合成データしか必要とせず, 競争力のあるゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-03-20T17:51:53Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Multiclass non-Adversarial Image Synthesis, with Application to
Classification from Very Small Sample [6.243995448840211]
我々は、新しい非逆生成法 - LA(Clustered Optimization of LAtent space)を提案する。
本手法は,全データレギュレーションにおいて,教師なしの多様なマルチクラス画像を生成することができる。
ラベル付き画像の小さなサンプルのみが、追加のラベル付きデータにアクセスせずにトレーニングできる小データ体制では、同じ量のデータでトレーニングされた最先端のGANモデルを上回る結果が得られる。
論文 参考訳(メタデータ) (2020-11-25T18:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。