論文の概要: SADGE: Structure and Appearance Domain Gap Estimation of Synthetic and Real Data
- arxiv url: http://arxiv.org/abs/2605.22467v1
- Date: Thu, 21 May 2026 13:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.572641
- Title: SADGE: Structure and Appearance Domain Gap Estimation of Synthetic and Real Data
- Title(参考訳): SADGE:合成および実データの構造と出現領域ギャップ推定
- Authors: Patryk Bartkowiak, Bartosz Kotrys, Dominik Michels, Soren Pirk, Wojtek Palubicki,
- Abstract要約: 本稿では,一般的なコンピュータビジョンタスクのための合成画像データセットの性能を予測する量的類似度指標であるSADGEを提案する。
合成画像と実画像の間で計算された外観と幾何学的類似度は、オブジェクト検出、セマンティックセグメンテーション、ポーズ推定における下流のパフォーマンスと相関する。
我々は、幾何に基づく手法と外見に基づくアプローチを組み合わせて、すべてのベンチマークファミリでSADGEスコアを計算する。
- 参考スコア(独自算出の注目度): 2.2798328260958063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SADGE, a quantitative similarity metric that predicts the performance of synthetic image datasets for common computer vision tasks without downstream model training. Estimating whether a synthetic dataset will lead to a model that performs well on real-world data remains a bottleneck in model development. Existing evaluation metrics (e.g., PSNR, FID, CLIP) primarily measure semantic alignment between real and synthetic images (Appearance Similarity Score). Less commonly, structural similarity between images is considered to assess the domain gap (Geometric Similarity Score). However, to the best of our knowledge there exists no studies that evaluate which similarity metric is the best downstream predictor for a given synthetic dataset. In this paper, we show over a wide variety of different synthetic datasets and downstream tasks that neither appearance nor geometry alone can reliably predict downstream performance; rather, it is their non-linear interplay that dictates synthetic data utility. Specifically, we measure how commonly used Appearance and Geometric Similarity metrics computed between synthetic and real images correlate with downstream performance in object detection, semantic segmentation, and pose estimation. Across five public synthetic-to-real benchmark families and 15 dataset-level variants (79k image pairs), SADGE achieves the strongest association with downstream transfer performance under both linear and rank-based criteria, reaching Pearson r=0.88 and Spearman rho=0.77. We compute for each combination of geometry-based methods and appearance-based approaches SADGE scores across all benchmark families. The best configuration is obtained by fusing DINOv3 appearance similarity with MASt3R geometric consistency through a constrained bilinear interaction, outperforming both the strongest geometry-only baseline and the strongest appearance-only baseline .
- Abstract(参考訳): ダウンストリームモデルトレーニングを使わずに、一般的なコンピュータビジョンタスクのための合成画像データセットの性能を予測する量的類似度指標であるSADGEを提案する。
合成データセットが現実世界のデータでうまく機能するモデルに繋がるかどうかを推定することは、モデル開発のボトルネックのままである。
既存の評価指標(例えば、PSNR、FID、CLIP)は、主に実画像と合成画像のセマンティックアライメントを測定する(Appearance similarity Score)。
より一般的には、画像間の構造的類似性は領域ギャップ(幾何学的類似度スコア)を評価すると考えられる。
しかし、我々の知る限りでは、任意の合成データセットのどの類似度指標が最適な下流予測因子であるかを評価する研究は存在しない。
本稿では、様々な合成データセットや下流タスクについて、外観や幾何学だけでは下流のパフォーマンスを確実に予測できず、むしろ合成データの有用性を規定する非線形相互作用であることを示す。
具体的には、オブジェクト検出、セマンティックセグメンテーション、ポーズ推定において、合成画像と実画像の間で計算される外観と幾何学的類似度が下流性能とどのように相関しているかを測定する。
SADGEは5つの一般の総合的なベンチマークファミリと15のデータセットレベルの変種(79kイメージペア)にまたがって、線形およびランクベースの基準の下で下流転送性能と最も強い関係を達成し、ピアソン r=0.88 とスピアマン rho=0.77 に到達した。
我々は、幾何に基づく手法と外見に基づくアプローチを組み合わせて、すべてのベンチマークファミリでSADGEスコアを計算する。
最良の構成は、DINOv3の外観とMASt3Rの幾何学的整合性を制約された双線形相互作用により融合させることにより得られる。
関連論文リスト
- Geometric Data Valuation via Leverage Scores [0.2538209532048866]
本稿では,統計レバレッジスコアに基づくShapleyデータ評価の幾何学的代替手法を提案する。
我々のスコアはシャプリー評価のダミー、効率、対称性の公理を満たすことを示す。
また、レバレッジサンプリングされたサブセットのトレーニングは、パラメータと予測リスクが全データ最適化の$O(varepsilon)$以内のモデルを生成することを示す。
論文 参考訳(メタデータ) (2025-11-03T22:20:50Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。