論文の概要: Feature Space Analysis by Guided Diffusion Model
- arxiv url: http://arxiv.org/abs/2509.07936v1
- Date: Tue, 09 Sep 2025 17:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.41783
- Title: Feature Space Analysis by Guided Diffusion Model
- Title(参考訳): 誘導拡散モデルによる特徴空間解析
- Authors: Kimiaki Shirahama, Miki Yanobu, Kaduki Yamashita, Miho Ohsaki,
- Abstract要約: Deep Neural Networks(DNN)の重要な問題のひとつは、内部的特徴抽出プロセスのブラックボックスの性質にある。
本稿では,ユーザが指定した特徴と密に一致した特徴を保証した画像を生成するデコーダを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key issues in Deep Neural Networks (DNNs) is the black-box nature of their internal feature extraction process. Targeting vision-related domains, this paper focuses on analysing the feature space of a DNN by proposing a decoder that can generate images whose features are guaranteed to closely match a user-specified feature. Owing to this guarantee that is missed in past studies, our decoder allows us to evidence which of various attributes in an image are encoded into a feature by the DNN, by generating images whose features are in proximity to that feature. Our decoder is implemented as a guided diffusion model that guides the reverse image generation of a pre-trained diffusion model to minimise the Euclidean distance between the feature of a clean image estimated at each step and the user-specified feature. One practical advantage of our decoder is that it can analyse feature spaces of different DNNs with no additional training and run on a single COTS GPU. The experimental results targeting CLIP's image encoder, ResNet-50 and vision transformer demonstrate that images generated by our decoder have features remarkably similar to the user-specified ones and reveal valuable insights into these DNNs' feature spaces.
- Abstract(参考訳): Deep Neural Networks(DNN)の重要な問題のひとつは、内部的特徴抽出プロセスのブラックボックスの性質にある。
本稿では,DNNの特徴空間の分析に焦点をあて,特徴量とユーザ指定特徴量との密接な一致を保証した画像を生成するデコーダを提案する。
過去の研究で欠落していたこの保証のため、画像の様々な属性がDNNによって特徴にエンコードされていることを示すために、特徴が特徴に近接している画像を生成する。
このデコーダは,事前学習した拡散モデルの逆画像生成をガイドする誘導拡散モデルとして実装され,各ステップで推定されるクリーン画像の特徴とユーザ特定特徴との間のユークリッド距離を最小化する。
我々のデコーダの実用上の利点は、異なるDNNの機能空間を追加のトレーニングなしで分析でき、単一のCOTS GPU上で実行することができることである。
CLIPのイメージエンコーダ、ResNet-50、ビジョントランスフォーマーをターゲットとした実験の結果、デコーダによって生成された画像は、ユーザ指定の画像と非常によく似た特徴を持ち、これらのDNNの機能空間に対する貴重な洞察を明らかにしている。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Good Representation, Better Explanation: Role of Convolutional Neural Networks in Transformer-Based Remote Sensing Image Captioning [0.6499759302108925]
リモートセンシング画像キャプチャ(RSIC)における12種類の畳み込みニューラルネットワーク(CNN)アーキテクチャをトランスフォーマーベースのエンコーダフレームワーク内で体系的に評価し,その有効性を評価する。
その結果,キャプション性能向上におけるエンコーダ選択の重要性が強調され,特定のCNNアーキテクチャがリモートセンシング画像に対して生成した記述の品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-02-22T05:36:28Z) - Unlocking Visual Secrets: Inverting Features with Diffusion Priors for Image Reconstruction [29.863847574047792]
ディープニューラルネットワーク(DNN)内の視覚表現を反転させることは、ディープラーニングのセキュリティとプライバシの分野において、困難かつ重要な問題である。
本稿では,画像合成の有望な手法である拡散モデルを用いて,特徴の反転品質を向上させることを提案する。
その結果,拡散モデルではDNNの特徴から隠れた情報を効果的に活用できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T20:24:15Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。