論文の概要: On Buggy Resizing Libraries and Surprising Subtleties in FID Calculation
- arxiv url: http://arxiv.org/abs/2104.11222v1
- Date: Thu, 22 Apr 2021 17:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 14:00:47.527415
- Title: On Buggy Resizing Libraries and Surprising Subtleties in FID Calculation
- Title(参考訳): FID計算におけるBuggy Resizing LibrariesとSprising Subtletiesについて
- Authors: Gaurav Parmar, Richard Zhang, Jun-Yan Zhu
- Abstract要約: Inception Distance (FID)スコアは、生成モデルを評価するために広く利用されている。
FIDスコアは生成モデルを評価するために広く使用されるが、各FID実装は異なる低レベル画像処理プロセスを使用する。
FIDの計算には微妙な選択が必要であり、これらの選択に相補性が欠如しているため、FIDのスコアは大きく異なる可能性がある。
- 参考スコア(独自算出の注目度): 38.08861535427491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the sensitivity of the Fr\'echet Inception Distance (FID)
score to inconsistent and often incorrect implementations across different
image processing libraries. FID score is widely used to evaluate generative
models, but each FID implementation uses a different low-level image processing
process. Image resizing functions in commonly-used deep learning libraries
often introduce aliasing artifacts. We observe that numerous subtle choices
need to be made for FID calculation and a lack of consistencies in these
choices can lead to vastly different FID scores. In particular, we show that
the following choices are significant: (1) selecting what image resizing
library to use, (2) choosing what interpolation kernel to use, (3) what
encoding to use when representing images. We additionally outline numerous
common pitfalls that should be avoided and provide recommendations for
computing the FID score accurately. We provide an easy-to-use optimized
implementation of our proposed recommendations in the accompanying code.
- Abstract(参考訳): 本稿では,Fr'echet Inception Distance(FID)スコアの非一貫性と,異なる画像処理ライブラリ間の不整合な実装に対する感度について検討する。
FIDスコアは生成モデルを評価するために広く使用されるが、各FID実装は異なる低レベル画像処理プロセスを使用する。
一般的なディープラーニングライブラリにおける画像リサイズ機能は、しばしばエイリアスアーティファクトを導入する。
FIDの計算には微妙な選択が必要であり、これらの選択に相補性が欠如しているため、FIDのスコアは大きく異なる可能性がある。
具体的には,(1)どのイメージリサイズライブラリを使うかの選択,(2)どのインタープリケーションカーネルを使うかの選択,(3)画像を表すときに使用するエンコーディングの方法が重要であることを示す。
さらに,fidスコアを正確に計算するための推奨事項として,避けるべき多くの一般的な落とし穴を概説する。
関連コードで提案した推奨事項を簡単に最適化した実装を提供する。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Rethinking FID: Towards a Better Evaluation Metric for Image Generation [43.66036053597747]
Inception Distanceは、実画像のInception-v3特徴分布とアルゴリズムによって生成された画像の距離を推定する。
インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。
よりリッチなCLIP埋め込みとガウスRBFカーネルとの最大平均差距離に基づく代替のCMMDを提案する。
論文 参考訳(メタデータ) (2023-11-30T19:11:01Z) - Log-Likelihood Score Level Fusion for Improved Cross-Sensor Smartphone
Periocular Recognition [52.15994166413364]
我々は、複数のコンパレータを融合させて、異なるスマートフォンの画像を比較する際に、眼周囲の性能を改善する。
我々は線形ロジスティック回帰に基づく確率的融合フレームワークを使用し、融合したスコアはログライクな比率になる傾向にある。
我々のフレームワークは、同じセンサとクロスセンサーのスコア分布が整列され、共通の確率領域にマッピングされるため、異なるデバイスからの信号を処理するためのエレガントでシンプルなソリューションも提供します。
論文 参考訳(メタデータ) (2023-11-02T13:43:44Z) - Improving the matching of deformable objects by learning to detect
keypoints [6.4587163310833855]
本研究では,非剛性画像対応タスクにおける正しいマッチング数を増やすための新しい学習キーポイント検出手法を提案する。
我々はエンドツーエンドの畳み込みニューラルネットワーク(CNN)をトレーニングし、考慮された記述子により適したキーポイント位置を見つける。
実験により,本手法は検出手法と併用して多数の記述子の平均マッチング精度を向上させることを示した。
また,本手法を,現在利用可能な最も優れたキーポイント検出器と同等に動作する複雑な実世界のタスクオブジェクト検索に適用する。
論文 参考訳(メタデータ) (2023-09-01T13:02:19Z) - Learning to Detect Good Keypoints to Match Non-Rigid Objects in RGB
Images [7.428474910083337]
本稿では,非剛性画像対応タスクの正マッチ数を最大化するために,新しい学習キーポイント検出手法を提案する。
我々のトレーニングフレームワークは、アノテートされた画像対と予め定義された記述子抽出器をマッチングして得られる真の対応を利用して、畳み込みニューラルネットワーク(CNN)を訓練する。
実験の結果,本手法は平均整合精度で20時までに非剛体物体の実像に対して,最先端のキーポイント検出器よりも優れていた。
論文 参考訳(メタデータ) (2022-12-13T11:59:09Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image
Search and Retrieval [1.123376893295777]
計量空間を学ぶための一般的なアプローチは、類似した(正の)画像と異種(負の)画像の選択に依存する。
マルチラベルRS CBIR問題に対して定義されたディープニューラルネットワーク(DNNs)の枠組みにおける新しいトリプレットサンプリング法を提案する。
論文 参考訳(メタデータ) (2021-05-08T09:16:09Z) - Robust Place Recognition using an Imaging Lidar [45.37172889338924]
本研究では,画像lidarを用いたロバストなリアルタイム位置認識手法を提案する。
本手法は真不変であり,逆再訪と逆逆再訪に対処できる。
論文 参考訳(メタデータ) (2021-03-03T01:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。