論文の概要: Representation Fréchet Loss for Visual Generation
- arxiv url: http://arxiv.org/abs/2604.28190v1
- Date: Thu, 30 Apr 2026 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.250494
- Title: Representation Fréchet Loss for Visual Generation
- Title(参考訳): 視覚生成のための表現フレシェ損失
- Authors: Jiawei Yang, Zhengyang Geng, Xuan Ju, Yonglong Tian, Yue Wang,
- Abstract要約: Fréchet Distance は表現空間において効果的に最適化可能であることを示す。
我々の考えは単純であり、FD推定のための集団サイズと勾配のためのバッチサイズを分離する。
異なる表現空間におけるFD-lossによるベースジェネレータのポストトレーニングは、常に視覚的品質を改善する。
- 参考スコア(独自算出の注目度): 26.843476005665497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that Fréchet Distance (FD), long considered impractical as a training objective, can in fact be effectively optimized in the representation space. Our idea is simple: decouple the population size for FD estimation (e.g., 50k) from the batch size for gradient computation (e.g., 1024). We term this approach FD-loss. Optimizing FD-loss reveals several surprising findings. First, post-training a base generator with FD-loss in different representation spaces consistently improves visual quality. Under the Inception feature space, a one-step generator achieves0.72 FID on ImageNet 256x256. Second, the same FD-loss repurposes multi-step generators into strong one-step generators without teacher distillation, adversarial training or per-sample targets. Third, FID can misrank visual quality: modern representations can yield better samples despite worse Inception FID. This motivates FDr$^k$, a multi-representation metric. We hope this work will encourage further exploration of distributional distances in diverse representation spaces as both training objectives and evaluation metrics for generative models.
- Abstract(参考訳): そこで,Fréchet Distance (FD) は従来,訓練対象として非現実的と考えられてきたが,実際は表現空間において効果的に最適化可能であることを示す。
我々の考えは単純で、FD推定のための集団サイズ(例:50k)を勾配計算のためのバッチサイズ(例:1024)から切り離す。
このアプローチをFD-lossと呼ぶ。
FD-lossの最適化には、いくつかの驚くべき発見がある。
まず、異なる表現空間におけるFD-lossによるベースジェネレータのポストトレーニングにより、視覚的品質が一貫して向上する。
Inception機能空間では、ImageNet 256x256上で1ステップジェネレータが0.72 FIDを達成する。
第二に、FD-lossは多段階の発電機を教師の蒸留、反対訓練、サンプルごとの目標なしに強力な一段階の発電機に再利用する。
第3に、FIDは視覚的品質を誤る可能性がある。
これは多表現計量 FDr$^k$ を動機付けている。
本研究は, 多様な表現空間における分布距離を, 学習目標と生成モデル評価指標の両方として, より深く探求することを願っている。
関連論文リスト
- GaussianUDF: Inferring Unsigned Distance Functions through 3D Gaussian Splatting [49.60513072330759]
本稿では,3次元ガウスとUDFのギャップを埋める新しい手法を提案する。
私たちのキーとなるアイデアは、表面上の細く平坦な2次元ガウス平面を過度に適合させ、それから自己超越と勾配に基づく推論を活用することである。
我々は, 境界を持つ開放面の精度, 効率, 完全性, シャープ性の観点から, 優位性を示す。
論文 参考訳(メタデータ) (2025-03-25T08:46:55Z) - Normalizing Flow-Based Metric for Image Generation [4.093503153499691]
正規化フローに基づいて生成画像の現実性を評価するための2つの新しい評価指標を提案する。
正規化フローは正確な確率を計算するために使用できるため、提案したメトリクスは、与えられた領域からの実際の画像の分布とどのように密接に一致しているかを評価する。
論文 参考訳(メタデータ) (2024-10-02T20:09:58Z) - Fréchet Wavelet Distance: A Domain-Agnostic Metric for Image Generation [11.995091514262835]
We propose the Fr'echet Wavelet Distance (FWD) as a domain-agnostic metric based on the Wavelet Packet Transform ($W_p$)。
FWDは高解像度の画像の広い周波数帯を視認し、空間的側面とテクスチャ的側面の両方を保存する。
このメトリクスは、トレーニング済みのネットワークに依存しないので、汎用的でデータセットドメインに依存しない。
論文 参考訳(メタデータ) (2023-12-23T16:10:53Z) - F?D: On understanding the role of deep feature spaces on face generation
evaluation [5.655130837404874]
異なる深い特徴とその設計選択が知覚的計量に与える影響について検討する。
我々の分析の重要な要素は、ディープフェイスジェネレータを用いた合成反事実顔の作成である。
論文 参考訳(メタデータ) (2023-05-31T17:21:58Z) - FOF: Learning Fourier Occupancy Field for Monocular Real-time Human
Reconstruction [73.85709132666626]
パラメトリックモデル、ボクセルグリッド、メッシュ、暗黙のニューラル表現といった既存の表現は、高品質な結果とリアルタイムなスピードを同時に達成することが困難である。
本稿では,モノクラーリアルタイムかつ高精度な人体再構成のための,新しい強力で効率的で柔軟な3次元表現であるFourier Occupancy Field (FOF)を提案する。
FOFは、2D畳み込みニューラルネットワークと互換性があり、3D画像と2D画像のギャップを埋めることのできるマルチチャネル画像として保存することができる。
論文 参考訳(メタデータ) (2022-06-05T14:45:02Z) - iSDF: Real-Time Neural Signed Distance Fields for Robot Perception [64.80458128766254]
iSDFは実時間符号付き距離場再構成のための連続学習システムである。
より正確な再構築と、衝突コストと勾配のより良い近似を生成する。
論文 参考訳(メタデータ) (2022-04-05T15:48:39Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。