論文の概要: Image Reconstruction as a Tool for Feature Analysis
- arxiv url: http://arxiv.org/abs/2506.07803v1
- Date: Mon, 09 Jun 2025 14:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.993894
- Title: Image Reconstruction as a Tool for Feature Analysis
- Title(参考訳): 特徴分析ツールとしての画像再構成
- Authors: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov,
- Abstract要約: 本稿では,画像再構成による視覚特徴の解釈のための新しい手法を提案する。
画像ベースタスクで事前訓練されたエンコーダは、非画像タスクで訓練されたものよりも、はるかに多くの画像情報を保持することを示す。
我々のアプローチはどんな視覚エンコーダにも適用でき、特徴空間の内部構造に光を遮ることができる。
- 参考スコア(独自算出の注目度): 2.0249250133493195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision encoders are increasingly used in modern applications, from vision-only models to multimodal systems such as vision-language models. Despite their remarkable success, it remains unclear how these architectures represent features internally. Here, we propose a novel approach for interpreting vision features via image reconstruction. We compare two related model families, SigLIP and SigLIP2, which differ only in their training objective, and show that encoders pre-trained on image-based tasks retain significantly more image information than those trained on non-image tasks such as contrastive learning. We further apply our method to a range of vision encoders, ranking them by the informativeness of their feature representations. Finally, we demonstrate that manipulating the feature space yields predictable changes in reconstructed images, revealing that orthogonal rotations (rather than spatial transformations) control color encoding. Our approach can be applied to any vision encoder, shedding light on the inner structure of its feature space. The code and model weights to reproduce the experiments are available in GitHub.
- Abstract(参考訳): ヴィジュアルエンコーダは、視覚のみのモデルから視覚言語モデルのようなマルチモーダルシステムまで、現代のアプリケーションでますます使われている。
その顕著な成功にもかかわらず、これらのアーキテクチャが内部でどのように機能を表すのかは不明だ。
本稿では,画像再構成による視覚特徴の解釈手法を提案する。
本研究では,SigLIPとSigLIP2の2つのモデルファミリを比較し,画像ベースタスクで事前学習したエンコーダが,コントラッシブラーニングなどの非イメージタスクで訓練したファミリよりも有意に画像情報を保持することを示す。
さらに,本手法を様々な視覚エンコーダに適用し,特徴表現の有意性によってランク付けする。
最後に、特徴空間を操作することで、再構成画像の予測可能な変化が得られ、直交回転が(空間変換ではなく)色符号化を制御することを示した。
我々のアプローチはどんな視覚エンコーダにも適用でき、特徴空間の内部構造に光を遮ることができる。
実験を再現するためのコードとモデルの重みはGitHubで公開されている。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - NARAIM: Native Aspect Ratio Autoregressive Image Models [26.26674614731835]
NARAIMは自己回帰的対象を事前学習した視覚モデルである。
ネイティブアスペクト比を維持することにより、元の空間的コンテキストを保存し、視覚情報を解釈するモデルの能力を高める。
論文 参考訳(メタデータ) (2024-10-13T21:13:48Z) - Neural architecture impact on identifying temporally extended
Reinforcement Learning tasks [0.0]
Intention based architectures in reinforcement learning (RL) domain, which can be good performance on OpenAI Gym Atari-2600 game suite。
注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択するために使用する情報の直接観察が可能になる。
さらに、視覚変換器を用いた注意に基づく映像分類モデルの開発により、画像ベースRLドメインにも視覚変換器をベースとしたアーキテクチャが考案された。
論文 参考訳(メタデータ) (2023-10-04T21:09:19Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Learning to Resize Images for Computer Vision Tasks [15.381549764216134]
そこで本研究では,リニアリシライザを学習リシライザに置き換えることで,性能を大幅に向上できることを示す。
我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。
提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。
論文 参考訳(メタデータ) (2021-03-17T23:43:44Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。