論文の概要: Inverting Visual Representations with Detection Transformers
- arxiv url: http://arxiv.org/abs/2412.06534v1
- Date: Mon, 09 Dec 2024 14:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:56.015180
- Title: Inverting Visual Representations with Detection Transformers
- Title(参考訳): 検出変換器による視覚表現の反転
- Authors: Jan Rathjens, Shirin Reyhanian, David Kappel, Laurenz Wiskott,
- Abstract要約: 本研究では,検出変換器内の中間層からの入力画像を再構成するために,逆モデルのトレーニング手法を適用する。
本研究では, テクスチャ形状の堅牢性, 層間相関, 色摂動の保存など, 検出変換器の臨界特性を示す。
- 参考スコア(独自算出の注目度): 0.8124699127636158
- License:
- Abstract: Understanding the mechanisms underlying deep neural networks in computer vision remains a fundamental challenge. While many prior approaches have focused on visualizing intermediate representations within deep neural networks, particularly convolutional neural networks, these techniques have yet to be thoroughly explored in transformer-based vision models. In this study, we apply the approach of training inverse models to reconstruct input images from intermediate layers within a Detection Transformer, showing that this approach is efficient and feasible for transformer-based vision models. Through qualitative and quantitative evaluations of reconstructed images across model stages, we demonstrate critical properties of Detection Transformers, including contextual shape preservation, inter-layer correlation, and robustness to color perturbations, illustrating how these characteristics emerge within the model's architecture. Our findings contribute to a deeper understanding of transformer-based vision models. The code for reproducing our experiments will be made available at github.com/wiskott-lab/inverse-detection-transformer.
- Abstract(参考訳): コンピュータビジョンにおけるディープニューラルネットワークの基礎となるメカニズムを理解することは、依然として根本的な課題である。
従来の多くのアプローチでは、ディープニューラルネットワーク、特に畳み込みニューラルネットワークにおける中間表現の可視化に重点を置いてきたが、これらの手法はトランスフォーマーベースの視覚モデルでは十分に研究されていない。
本研究では,検出変換器内の中間層から入力イメージを再構成するために,逆モデルのトレーニング手法を適用し,この手法がトランスフォーマーに基づく視覚モデルに有効であり,実現可能であることを示す。
モデルステージ全体にわたる再構成画像の質的,定量的評価を通じて,テクスチャ形状の保存,層間相関,色摂動に対する堅牢性など,検出トランスフォーマの重要な特性を示し,これらの特徴がモデルアーキテクチャ内でどのように現れるかを示す。
本研究は,トランスフォーマーに基づく視覚モデルに対する深い理解に寄与する。
実験を再現するためのコードはgithub.com/wiskott-lab/inverse-detection-transformerで利用できる。
関連論文リスト
- Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as
an Alternative to Attention Layers in Transformers [5.356051655680145]
本研究は,従来のトランスフォーマーモデルにおけるアテンション機構の動作を模倣するために,標準の浅層フィードフォワードネットワークを用いることの有効性について分析した。
我々はトランスフォーマーの注意機構の重要な要素を簡単なフィードフォワードネットワークで置き換え、知識蒸留により元のコンポーネントを用いて訓練する。
IWSLT 2017データセットで実施した実験では,これらの“アテンションレストランスフォーマー(attentionless Transformers)”の能力が,オリジナルのアーキテクチャのパフォーマンスに匹敵することを示した。
論文 参考訳(メタデータ) (2023-11-17T16:58:52Z) - Blind Image Quality Assessment via Transformer Predicted Error Map and
Perceptual Quality Token [19.67014524146261]
近年,非参照画像品質評価(NR-IQA)が注目されている。
予測された客観的誤差マップと知覚的品質トークンを用いたTransformerベースのNR-IQAモデルを提案する。
提案手法は, 実画像データベースと合成画像データベースの両方において, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-05-16T11:17:54Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。