論文の概要: ViT-Explainer: An Interactive Walkthrough of the Vision Transformer Pipeline
- arxiv url: http://arxiv.org/abs/2604.02182v1
- Date: Thu, 02 Apr 2026 15:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.893372
- Title: ViT-Explainer: An Interactive Walkthrough of the Vision Transformer Pipeline
- Title(参考訳): ViT-Explainer:視覚変換器パイプラインのインタラクティブウォークスルー
- Authors: Juan Manuel Hernandez, Mariana Fernandez-Espinosa, Denis Parra, Diego Gomez-Zara,
- Abstract要約: ViT-Explainerは、Vision Transformerの推論を可視化するWebベースのインタラクティブシステムである。
6人の参加者によるユーザスタディでは、ViT-Explainerは学習と使用が容易であり、視覚変換器の動作の解釈と理解を支援することが示唆されている。
- 参考スコア(独自算出の注目度): 2.6271500034294273
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer-based architectures have become the shared backbone of natural language processing and computer vision. However, understanding how these models operate remains challenging, particularly in vision settings, where images are processed as sequences of patch tokens. Existing interpretability tools often focus on isolated components or expert-oriented analysis, leaving a gap in guided, end-to-end understanding of the full inference pipeline. To bridge this gap, we present ViT-Explainer, a web-based interactive system that provides an integrated visualization of Vision Transformer inference, from patch tokenization to final classification. The system combines animated walkthroughs, patch-level attention overlays, and a vision-adapted Logit Lens within both guided and free exploration modes. A user study with six participants suggests that ViT-Explainer is easy to learn and use, helping users interpret and understand Vision Transformer behavior.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、自然言語処理とコンピュータビジョンの共有バックボーンとなっている。
しかし、これらのモデルがどのように動作するかを理解することは、特に画像がパッチトークンのシーケンスとして処理される視覚設定において、依然として困難である。
既存の解釈可能性ツールは多くの場合、独立したコンポーネントや専門家指向の分析に重点を置いており、完全な推論パイプラインに対するガイド付きエンドツーエンドの理解のギャップを残している。
このギャップを埋めるために、パッチトークン化から最終分類まで、ViT-Explainerを統合的に視覚化するWebベースのインタラクティブシステムを提案する。
このシステムは、アニメーションのウォークスルー、パッチレベルのアテンションオーバーレイ、そしてガイドモードと自由探索モードの両方で視覚に適応したLogit Lensを組み合わせている。
6人の参加者によるユーザスタディでは、ViT-Explainerは学習と使用が容易であり、視覚変換器の動作の解釈と理解を支援することが示唆されている。
関連論文リスト
- EL-VIT: Probing Vision Transformer with Interactive Visualization [22.201530351247648]
本稿では,視覚変換器の探索を目的とした対話型視覚分析システムEL-VITを紹介する。
最初の3つのレイヤには、モデル概要、知識背景グラフ、モデル詳細ビューが含まれる。
第4の解釈ビューは、ViTユーザと専門家がパッチ間のコサイン類似性を計算することによって、より深い理解を得るのに役立つ。
論文 参考訳(メタデータ) (2024-01-23T11:21:32Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video
Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。
まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。
次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文 参考訳(メタデータ) (2022-11-28T07:39:20Z) - VL-InterpreT: An Interactive Visualization Tool for Interpreting
Vision-Language Transformers [47.581265194864585]
視覚とマルチモーダル変換器の内部機構はほとんど不透明である。
これらの変圧器の成功により、その内部動作を理解することがますます重要になっている。
マルチモーダルトランスにおける注目や隠された表現を解釈するための対話型可視化を提供するVL-InterpreTを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:25:35Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。