論文の概要: Discriminative Span as a Predictor of Synthetic Data Utility via Classifier Reconstruction
- arxiv url: http://arxiv.org/abs/2605.09697v1
- Date: Sun, 10 May 2026 18:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.37709
- Title: Discriminative Span as a Predictor of Synthetic Data Utility via Classifier Reconstruction
- Title(参考訳): 分類器再構成による合成データ有用性の予測因子としての識別スパン
- Authors: Radhika Amar Desai, Modigari Narendra,
- Abstract要約: 広く採用されている解決策は、画像から画像への変換を負のサンプルに適用することで、合成正のデータを生成することである。
モデル学習を必要とせずに合成データの有効性を予測できる幾何駆動計量を提案する。
実陰性および合成正の混合データに基づいて学習したCNNの下流分類性能と強い相関性を示す。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world computer vision applications, including medical imaging and industrial inspection, binary classification tasks are characterized by a severe scarcity of positive samples. A widely adopted solution is to generate synthetic positive data using image-to-image transformations applied to negative samples. However, a fundamental challenge remains: how can we reliably assess whether such synthetic data will improve downstream model performance? In this work, we propose a geometry-driven metric that predicts the utility of synthetic data without requiring model training. Our approach operates in the embedding space of a pre-trained foundation model and represents the dataset through difference vectors between samples. We evaluate whether the weight vector of a linear classifier can be expressed within the subspace spanned by these variations by measuring the relative projection error. Intuitively, if the variations induced by synthetic data capture task-relevant directions, their span can approximate the classifier, resulting in low projection error. Conversely, poor synthetic data fails to span these directions, leading to higher error. Across multiple datasets and architectures, we show that this metric exhibits strong correlation with downstream classification performance of CNNs trained on mixtures of real negative and synthetic positive data. These findings suggest that the proposed metric serves as a practical and informative tool for evaluating synthetic data quality in data-scarce settings.
- Abstract(参考訳): 医療画像や産業検査を含む多くの実世界のコンピュータビジョンアプリケーションにおいて、バイナリ分類タスクは、陽性サンプルの深刻な不足によって特徴づけられる。
広く採用されている解決策は、画像から画像への変換を負のサンプルに適用することで、合成正のデータを生成することである。
しかし、このような合成データが下流モデルの性能を改善するかどうかを確実に評価するには、根本的な課題が残されている。
本研究では, モデル学習を必要とせず, 合成データの有効性を予測できる幾何駆動計量を提案する。
提案手法は,事前学習した基礎モデルの埋め込み空間で動作し,サンプル間の差分ベクトルを通してデータセットを表現する。
我々は, 線形分類器の重みベクトルが, 相対射影誤差を計測することにより, それらの変動にまたがる部分空間内で表現できるかどうかを評価する。
直感的には、合成データによって引き起こされるタスク関連方向の変動が、それらのスパンによって分類器を近似することができ、プロジェクションエラーが低くなる。
逆に、貧弱な合成データはこれらの方向をまたぐことができず、より高いエラーにつながる。
複数のデータセットとアーキテクチャにわたって、本測定値は、実陰性および合成正の混合データに基づいて訓練されたCNNの下流分類性能と強い相関を示す。
これらの結果から,提案手法は,データ・スカース・セッティングにおける合成データ品質を評価するための実用的・情報的ツールとして有用であることが示唆された。
関連論文リスト
- High-dimensional Analysis of Synthetic Data Selection [44.67519806837088]
線形モデルでは,対象分布と合成データの分布の共分散が一般化誤差に影響を与えることを示す。
興味深いことに、線形モデルからの理論的な洞察は、ディープニューラルネットワークと生成モデルに受け継がれる。
論文 参考訳(メタデータ) (2025-10-09T12:06:31Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [23.098551349745815]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
本稿では,非教師なし文の埋め込みを改善するために,ガウス型勾配支援コントラスト文埋め込み(GCSE)モデルを提案する。
実験結果から,本手法は意味的テキスト類似性タスクにおける最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。