論文の概要: Latent Space Energy-based Model for Fine-grained Open Set Recognition
- arxiv url: http://arxiv.org/abs/2309.10711v1
- Date: Tue, 19 Sep 2023 16:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:43:11.408217
- Title: Latent Space Energy-based Model for Fine-grained Open Set Recognition
- Title(参考訳): 宇宙エネルギーを用いた細粒度開集合認識モデル
- Authors: Wentao Bao, Qi Yu, Yu Kong
- Abstract要約: 微細なオープンセット認識(FineOSR)は、未知のクラスのイメージを拒絶しながら、微妙な外観の違いを持つクラスに属する画像を認識することを目的としている。
生成モデルの一種として、エネルギーベースモデル(EBM)は、生成的タスクと識別的タスクのハイブリッドモデリングのポテンシャルである。
本稿では,OSRの精密な視覚空間におけるエネルギーに基づく事前分布を用いた低次元潜伏空間について検討する。
- 参考スコア(独自算出の注目度): 46.0388856095674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained open-set recognition (FineOSR) aims to recognize images
belonging to classes with subtle appearance differences while rejecting images
of unknown classes. A recent trend in OSR shows the benefit of generative
models to discriminative unknown detection. As a type of generative model,
energy-based models (EBM) are the potential for hybrid modeling of generative
and discriminative tasks. However, most existing EBMs suffer from density
estimation in high-dimensional space, which is critical to recognizing images
from fine-grained classes. In this paper, we explore the low-dimensional latent
space with energy-based prior distribution for OSR in a fine-grained visual
world. Specifically, based on the latent space EBM, we propose an
attribute-aware information bottleneck (AIB), a residual attribute feature
aggregation (RAFA) module, and an uncertainty-based virtual outlier synthesis
(UVOS) module to improve the expressivity, granularity, and density of the
samples in fine-grained classes, respectively. Our method is flexible to take
advantage of recent vision transformers for powerful visual classification and
generation. The method is validated on both fine-grained and general visual
classification datasets while preserving the capability of generating
photo-realistic fake images with high resolution.
- Abstract(参考訳): 細粒度オープンセット認識(fineosr)は、未知のクラスのイメージを拒絶しながら、微妙な外観の違いを持つクラスに属するイメージを認識することを目的としている。
OSRの最近の傾向は、識別的未知の検出に対する生成モデルの利点を示している。
生成モデルの一種として、エネルギーベースモデル(EBM)は、生成的および識別的タスクのハイブリッドモデリングのポテンシャルである。
しかし、既存のebmの多くは高次元空間における密度推定に苦しむため、細粒度なクラスから画像を認識するのに非常に重要である。
本稿では,osrのエネルギーに基づく事前分布を細粒度視覚空間に導入することで,低次元潜在空間を探索する。
具体的には, 潜在空間ebmに基づいて, 細粒度クラスにおける試料の表現性, 粒度, 密度を向上させるために, 属性認識情報ボトルネック (aib) , 残留属性特徴集約 (rafa) モジュール, 不確実性に基づく仮想異常合成 (uvos) モジュールを提案する。
本手法は, 近年の視覚トランスフォーマを用いて, 強力な視覚分類と生成を行うことができる。
高解像度で写真リアルな偽画像を生成する能力を保ちながら、細粒度および一般的な視覚分類データセットで検証する。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning [20.175586324567025]
破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。
大きな問題は、生成したデータの品質がオリジナルのものと比べて低下することである。
本稿では,ジェネレータにおける画像品質を向上させる連続学習のためのGRに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-10T17:39:42Z) - Progressive Open Space Expansion for Open-Set Model Attribution [19.985618498466042]
我々は,OSMA(Open-Set Model Attribution)という課題に焦点をあて,既知のモデルに画像を同時に属性付けし,未知のモデルからそれらを識別する。
既存のオープンセット認識(OSR)タスクと比較して、OSMAは既知のモデルと未知のモデルとの区別が視覚的に知覚できないトレースに限られているため、より難しい。
本稿では, 閉集合と同一のセマンティクスを維持しつつ, 異なる認識不能なトレースを埋め込んだオープンセットサンプルをシミュレートした, プログレッシブオープンスペース拡張(POSE)ソリューションを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:53:11Z) - Generative Max-Mahalanobis Classifiers for Image Classification,
Generation and More [6.89001867562902]
Max-Mahalanobis (MMC) は、画像分類と生成のために、識別、生成、共同で訓練することができる。
ジェネラティブMCC(Generative MMC)は、画像分類と生成のために、識別的、生成的、または共同でトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-01-01T00:42:04Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。