論文の概要: Using Skew to Assess the Quality of GAN-generated Image Features
- arxiv url: http://arxiv.org/abs/2310.20636v2
- Date: Mon, 29 Apr 2024 23:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 19:47:42.912934
- Title: Using Skew to Assess the Quality of GAN-generated Image Features
- Title(参考訳): GAN生成画像の品質評価にスキューを使う
- Authors: Lorenzo Luzi, Helen Jenne, Ryan Murray, Carlos Ortiz Marrero,
- Abstract要約: Fr'echet Inception Distance (FID)は、その概念的単純さ、高速な計算時間、人間の知覚との強い相関により広く採用されている。
本稿では、画像特徴データにおける第3のモーメントの重要性を考察し、この情報を用いて新しい尺度を定義し、Skew Inception Distance (SID) と呼ぶ。
- 参考スコア(独自算出の注目度): 3.300324211572204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Generative Adversarial Networks (GANs) necessitates the need to robustly evaluate these models. Among the established evaluation criteria, the Fr\'{e}chetInception Distance (FID) has been widely adopted due to its conceptual simplicity, fast computation time, and strong correlation with human perception. However, FID has inherent limitations, mainly stemming from its assumption that feature embeddings follow a Gaussian distribution, and therefore can be defined by their first two moments. As this does not hold in practice, in this paper we explore the importance of third-moments in image feature data and use this information to define a new measure, which we call the Skew Inception Distance (SID). We prove that SID is a pseudometric on probability distributions, show how it extends FID, and present a practical method for its computation. Our numerical experiments support that SID either tracks with FID or, in some cases, aligns more closely with human perception when evaluating image features of ImageNet data. Our work also shows that principal component analysis can be used to speed up the computation time of both FID and SID. Although we focus on using SID on image features for GAN evaluation, SID is applicable much more generally, including for the evaluation of other generative models.
- Abstract(参考訳): GAN(Generative Adversarial Networks)の急速な進歩は、これらのモデルを堅牢に評価する必要がある。
確立された評価基準の中で、Fr\'{e}chetInception Distance (FID)は、その概念的単純さ、高速な計算時間、人間の知覚との強い相関により広く採用されている。
しかし、FIDには固有の制限があり、主に特徴埋め込みがガウス分布に従うという仮定から来ており、したがって最初の2つの瞬間によって定義することができる。
本稿では,画像特徴データにおける第3のモーメントの重要性を考察し,この情報を用いて新たな尺度を定義し,Skew Inception Distance (SID) と呼ぶ。
SIDは確率分布の擬似測度であり、FIDをどのように拡張するかを示し、その計算の実用的な方法を示す。
我々の数値実験では、SIDはFIDで追跡するか、イメージネットデータのイメージ特性を評価する際に、人間の知覚とより密接に一致している。
また、FIDとSIDの両方の計算時間を高速化するために、主成分分析が利用可能であることを示す。
GAN評価における画像特徴に対するSIDの利用に焦点をあてるが、他の生成モデルの評価を含め、SIDはより一般的に適用できる。
関連論文リスト
- Analyzing the Feature Extractor Networks for Face Image Synthesis [0.0]
本研究では,FID,KID,Precision/Recallといったさまざまな指標を考慮した多様な特徴抽出器(InceptionV3,CLIP,DINOv2,ArcFace)の挙動について検討した。
実験には、$L$正規化、抽出中のモデル注意、機能空間におけるドメイン分布など、機能に関する詳細な分析が含まれている。
論文 参考訳(メタデータ) (2024-06-04T09:41:40Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Reviewing FID and SID Metrics on Generative Adversarial Networks [0.0]
GAN(Generative Adversarial Network)モデルの成長により,画像処理能力が向上した。
これまでの研究では、Fr'echet Inception Distance(FID)が実世界のアプリケーションで画像から画像へのGANをテストする上で有効な指標であることが示されている。
本稿では、Pix2PixとCycleGANモデル内のファサード、都市景観、マップからなる公開データセットを使用する。
トレーニング後、これらのモデルは、トレーニングされたモデルの生成性能を測定する、両方の距離メトリクスに基づいて評価される。
論文 参考訳(メタデータ) (2024-02-06T03:02:39Z) - Rethinking FID: Towards a Better Evaluation Metric for Image Generation [43.66036053597747]
Inception Distanceは、実画像のInception-v3特徴分布とアルゴリズムによって生成された画像の距離を推定する。
インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。
よりリッチなCLIP埋め込みとガウスRBFカーネルとの最大平均差距離に基づく代替のCMMDを提案する。
論文 参考訳(メタデータ) (2023-11-30T19:11:01Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - The Role of ImageNet Classes in Fr\'echet Inception Distance [33.47601032254247]
インセプション距離(Inception Distance, FID)は、画像の2つの分布間の距離を定量化する指標である。
FIDは基本的に、ImageNetクラス確率の集合間の距離である。
以上の結果から, FID改善の過度な解釈に留意し, より知覚的に均一な分布指標の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2022-03-11T15:50:06Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Identity-Aware Attribute Recognition via Real-Time Distributed Inference
in Mobile Edge Clouds [53.07042574352251]
我々は、MEC対応カメラ監視システムにおいて、re-IDを用いた歩行者属性認識のための新しいモデルの設計を行う。
本稿では,属性認識と人物再IDを協調的に考慮し,分散モジュールの集合を持つ新しい推論フレームワークを提案する。
そこで我々は,提案した分散推論フレームワークのモジュール分布の学習に基づくアルゴリズムを考案した。
論文 参考訳(メタデータ) (2020-08-12T12:03:27Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。