論文の概要: Understanding Transformer-based Vision Models through Inversion
- arxiv url: http://arxiv.org/abs/2412.06534v4
- Date: Wed, 13 Aug 2025 18:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 15:52:16.753957
- Title: Understanding Transformer-based Vision Models through Inversion
- Title(参考訳): インバージョンによるトランスフォーマーに基づく視覚モデル理解
- Authors: Jan Rathjens, Shirin Reyhanian, David Kappel, Laurenz Wiskott,
- Abstract要約: 本研究では,本手法のより効率的な適用を可能にする新しいモジュラー変動を導入することにより,特徴の逆転を再考する。
本研究では,大規模変換器を用いた視覚モデル,検出変換器,視覚変換器に対して,我々の手法を体系的に適用する方法を実証する。
我々の分析では、これらのモデルがどのようにコンテキスト形状と画像の詳細をエンコードするか、それらの層がどのように相関し、色摂動に対する堅牢性を示す。
- 参考スコア(独自算出の注目度): 0.8124699127636158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the mechanisms underlying deep neural networks remains a fundamental challenge in machine learning and computer vision. One promising, yet only preliminarily explored approach, is feature inversion, which attempts to reconstruct images from intermediate representations using trained inverse neural networks. In this study, we revisit feature inversion, introducing a novel, modular variation that enables significantly more efficient application of the technique. We demonstrate how our method can be systematically applied to the large-scale transformer-based vision models, Detection Transformer and Vision Transformer, and how reconstructed images can be qualitatively interpreted in a meaningful way. We further quantitatively evaluate our method, thereby uncovering underlying mechanisms of representing image features that emerge in the two transformer architectures. Our analysis reveals key insights into how these models encode contextual shape and image details, how their layers correlate, and their robustness against color perturbations. These findings contribute to a deeper understanding of transformer-based vision models and their internal representations. The code for reproducing our experiments is available at github.com/wiskott-lab/inverse-tvm.
- Abstract(参考訳): ディープニューラルネットワークの基礎となるメカニズムを理解することは、マシンラーニングとコンピュータビジョンにおける根本的な課題である。
これは、トレーニングされた逆ニューラルネットワークを使用して中間表現からイメージを再構成しようとするものである。
本研究では,本手法のより効率的な適用を可能にする新しいモジュラー変動を導入することにより,特徴の逆転を再考する。
本研究では,大規模変換器を用いた視覚モデル,検出変換器,視覚変換器に本手法を体系的に適用する方法と,再構成した画像を定量的に意味のある方法で解釈する方法を実証する。
さらに,本手法を定量的に評価し,2つのトランスフォーマーアーキテクチャに現れる画像特徴を表現するメカニズムを明らかにする。
我々の分析では、これらのモデルがどのようにコンテキスト形状と画像の詳細をエンコードするか、それらの層がどのように相関し、色摂動に対する堅牢性を示す。
これらの知見は、トランスフォーマーに基づく視覚モデルとその内部表現のより深い理解に寄与する。
実験を再現するためのコードはgithub.com/wiskott-lab/inverse-tvmで公開されている。
関連論文リスト
- IN45023 Neural Network Design Patterns in Computer Vision Seminar Report, Summer 2025 [0.0]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
本稿では,残差接続を導入したResNetについて概説する。
我々は、画像パッチのシーケンスにTransformer ar- chitectureを適用することで、新しいパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文 参考訳(メタデータ) (2025-07-31T09:08:11Z) - Image Segmentation with transformers: An Overview, Challenges and Future [0.0]
本稿ではCNNベースのモデルの欠点とトランスフォーマーアーキテクチャへの移行について考察する。
本稿では,トランスフォーマーを用いたセグメンテーションにおける現在の課題について論じ,今後の展望を概説する。
論文 参考訳(メタデータ) (2025-01-16T08:34:39Z) - Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - T-TAME: Trainable Attention Mechanism for Explaining Convolutional
Networks and Vision Transformers [9.284740716447342]
ニューラルネットワークの"ブラックボックス"の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。
本稿では,T-TAME(Transformer- compatible Trainable Attention Mechanism for Explanations)を提案する。
提案されたアーキテクチャとトレーニング技術は、どんな畳み込みやビジョントランスフォーマーのようなニューラルネットワークにも容易に適用できる。
論文 参考訳(メタデータ) (2024-03-07T14:25:03Z) - Visual Analytics for Generative Transformer Models [28.251218916955125]
本稿では,変換器を用いた生成ネットワークの解析を支援するための新しい視覚分析フレームワークを提案する。
我々のフレームワークは、トランスフォーマーベースのエンコーダデコーダモデルの解析をサポートするための最初のフレームワークの1つである。
論文 参考訳(メタデータ) (2023-11-21T08:15:01Z) - Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as
an Alternative to Attention Layers in Transformers [5.356051655680145]
本研究は,従来のトランスフォーマーモデルにおけるアテンション機構の動作を模倣するために,標準の浅層フィードフォワードネットワークを用いることの有効性について分析した。
我々はトランスフォーマーの注意機構の重要な要素を簡単なフィードフォワードネットワークで置き換え、知識蒸留により元のコンポーネントを用いて訓練する。
IWSLT 2017データセットで実施した実験では,これらの“アテンションレストランスフォーマー(attentionless Transformers)”の能力が,オリジナルのアーキテクチャのパフォーマンスに匹敵することを示した。
論文 参考訳(メタデータ) (2023-11-17T16:58:52Z) - Blind Image Quality Assessment via Transformer Predicted Error Map and
Perceptual Quality Token [19.67014524146261]
近年,非参照画像品質評価(NR-IQA)が注目されている。
予測された客観的誤差マップと知覚的品質トークンを用いたTransformerベースのNR-IQAモデルを提案する。
提案手法は, 実画像データベースと合成画像データベースの両方において, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-05-16T11:17:54Z) - AbHE: All Attention-based Homography Estimation [0.0]
本研究では,局所的な特徴を持つ畳み込みニューラルネットワークとグローバルな特徴を持つトランスフォーマーモジュールを組み合わせた,Swin Transformerに基づく強力なベースラインモデルを提案する。
ホモグラフィ回帰段階では、相関ボリュームのチャネルに注意層を導入し、いくつかの弱い相関特徴点を排除できる。
実験の結果,8自由度(DOF)ホモグラフィーでは,我々の手法が最先端の手法をオーバーパフォーマンスすることがわかった。
論文 参考訳(メタデータ) (2022-12-06T15:00:00Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。