論文の概要: The Role of ImageNet Classes in Fr\'echet Inception Distance
- arxiv url: http://arxiv.org/abs/2203.06026v1
- Date: Fri, 11 Mar 2022 15:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 11:58:24.649919
- Title: The Role of ImageNet Classes in Fr\'echet Inception Distance
- Title(参考訳): fr\'echet開始距離におけるimagenetクラスの役割
- Authors: Tuomas Kynk\"a\"anniemi, Tero Karras, Miika Aittala, Timo Aila, Jaakko
Lehtinen
- Abstract要約: インセプション距離(Inception Distance, FID)は、画像の2つの分布間の距離を定量化する指標である。
FIDは基本的に、ImageNetクラス確率の集合間の距離である。
以上の結果から, FID改善の過度な解釈に留意し, より知覚的に均一な分布指標の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 33.47601032254247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fr\'echet Inception Distance (FID) is a metric for quantifying the distance
between two distributions of images. Given its status as a standard yardstick
for ranking models in data-driven generative modeling research, it seems
important that the distance is computed from general, "vision-related"
features. But is it? We observe that FID is essentially a distance between sets
of ImageNet class probabilities. We trace the reason to the fact that the
standard feature space, the penultimate "pre-logit" layer of a particular
Inception-V3 classifier network, is only one affine transform away from the
logits, i.e., ImageNet classes, and thus, the features are necessarily highly
specialized to them. This has unintuitive consequences for the metric's
sensitivity. For example, when evaluating a model for human faces, we observe
that, on average, FID is actually very insensitive to the facial region, and
that the probabilities of classes like "bow tie" or "seat belt" play a much
larger role. Further, we show that FID can be significantly reduced -- without
actually improving the quality of results -- by an attack that first generates
a slightly larger set of candidates, and then chooses a subset that happens to
match the histogram of such "fringe features" in the real data. We then
demonstrate that this observation has practical relevance in case of ImageNet
pre-training of GANs, where a part of the observed FID improvement turns out
not to be real. Our results suggest caution against over-interpreting FID
improvements, and underline the need for distribution metrics that are more
perceptually uniform.
- Abstract(参考訳): fr\'echet inception distance (fid) は画像の2つの分布間の距離を定量化する指標である。
データ駆動生成モデリング研究におけるモデルランキングの標準的ヤードスティックとしての地位を考えると、距離は一般に「ビジョン関連」な特徴から計算されることが重要である。
しかし、それは?
FIDは基本的に、ImageNetクラス確率の集合間の距離である。
Inception-V3分類器ネットワークの最小の"pre-logit"層である標準機能空間が、ロジットから1つのアフィン変換(つまりImageNetクラス)のみであるという事実から、その特徴は必ずしもそれらに高度に特化している。
これはメトリックの感度に直観的な結果をもたらす。
例えば、人間の顔のモデルを評価する場合、平均すると、fidは顔領域に非常に敏感であり、「ボウ・タイ」や「シート・ベルト」のようなクラスの確率がはるかに大きいことが観察される。
さらに、FIDは結果の質を実際に改善することなく、まず少し大きな候補を発生させ、次に、実際のデータにおけるそのような「フリンジ特徴」のヒストグラムにマッチするサブセットを選択することで、大幅に削減できることを示す。
そして、この観察は、観測されたFID改善の一部が現実的でないと判明した、画像ネットによるGANの事前学習における実践的関連性を示す。
以上の結果から, FID改善の過度な解釈に留意し, より知覚的に均一な分布指標の必要性を浮き彫りにした。
関連論文リスト
- Normalizing Flow-Based Metric for Image Generation [4.093503153499691]
正規化フローに基づいて生成画像の現実性を評価するための2つの新しい評価指標を提案する。
正規化フローは正確な確率を計算するために使用できるため、提案したメトリクスは、与えられた領域からの実際の画像の分布とどのように密接に一致しているかを評価する。
論文 参考訳(メタデータ) (2024-10-02T20:09:58Z) - Rethinking FID: Towards a Better Evaluation Metric for Image Generation [43.66036053597747]
Inception Distanceは、実画像のInception-v3特徴分布とアルゴリズムによって生成された画像の距離を推定する。
インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。
よりリッチなCLIP埋め込みとガウスRBFカーネルとの最大平均差距離に基づく代替のCMMDを提案する。
論文 参考訳(メタデータ) (2023-11-30T19:11:01Z) - Using Skew to Assess the Quality of GAN-generated Image Features [3.300324211572204]
Fr'echet Inception Distance (FID)は、その概念的単純さ、高速な計算時間、人間の知覚との強い相関により広く採用されている。
本稿では、画像特徴データにおける第3のモーメントの重要性を考察し、この情報を用いて新しい尺度を定義し、Skew Inception Distance (SID) と呼ぶ。
論文 参考訳(メタデータ) (2023-10-31T17:05:02Z) - Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts [22.74552390076515]
種々のバックボーンと事前学習セットを持つ16の頑健なゼロショットCLIPビジョンエンコーダの表現空間を探索する。
頑健なゼロショットCLIPビジョンエンコーダにおいて、オフリー機能の存在を検知し、これらが非トランスフォーマーモデルで観測されるのはこれが初めてである。
我々は、モデルにおけるImageNetシフトのロバスト性を示すために、外部機能が存在することを発見した。
論文 参考訳(メタデータ) (2023-10-19T17:59:12Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Visual Recognition with Deep Nearest Centroids [57.35144702563746]
我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
論文 参考訳(メタデータ) (2022-09-15T15:47:31Z) - Glance and Focus Networks for Dynamic Visual Recognition [36.26856080976052]
画像認識問題を,人間の視覚系を模倣した逐次的粗い特徴学習プロセスとして定式化する。
提案したGlance and Focus Network(GFNet)は,まず低解像度スケールで入力画像の迅速なグローバルな表現を抽出し,その後,より微細な特徴を学習するために,一連の局所的(小さな)領域に戦略的に参画する。
これは、iPhone XS Max上の高効率のMobileNet-V3の平均遅延を、精度を犠牲にすることなく1.3倍削減する。
論文 参考訳(メタデータ) (2022-01-09T14:00:56Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。