論文の概要: Interpretable Vision Transformers in Monocular Depth Estimation via SVDA
- arxiv url: http://arxiv.org/abs/2602.11005v1
- Date: Wed, 11 Feb 2026 16:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.184486
- Title: Interpretable Vision Transformers in Monocular Depth Estimation via SVDA
- Title(参考訳): SVDAを用いた単眼深度推定における解釈可能な視覚変換器
- Authors: Vasileios Arampatzakis, George Pavlidis, Nikolaos Mitianoudis, Nikos Papamarkos,
- Abstract要約: 我々はDense Prediction Transformer (DPT) にSVD-Inspired Attention (SVDA) を導入する。
SVDAは、学習可能な対角行列を正規化クエリキー相互作用に埋め込むことにより、スペクトル変調から方向アライメントを分離する。
KITTIとNYU-v2の実験では、SVDAは小さな計算オーバーヘッドのみを加えながら予測精度をわずかに改善している。
- 参考スコア(独自算出の注目度): 5.8833115420537085
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Monocular depth estimation is a central problem in computer vision with applications in robotics, AR, and autonomous driving, yet the self-attention mechanisms that drive modern Transformer architectures remain opaque. We introduce SVD-Inspired Attention (SVDA) into the Dense Prediction Transformer (DPT), providing the first spectrally structured formulation of attention for dense prediction tasks. SVDA decouples directional alignment from spectral modulation by embedding a learnable diagonal matrix into normalized query-key interactions, enabling attention maps that are intrinsically interpretable rather than post-hoc approximations. Experiments on KITTI and NYU-v2 show that SVDA preserves or slightly improves predictive accuracy while adding only minor computational overhead. More importantly, SVDA unlocks six spectral indicators that quantify entropy, rank, sparsity, alignment, selectivity, and robustness. These reveal consistent cross-dataset and depth-wise patterns in how attention organizes during training, insights that remain inaccessible in standard Transformers. By shifting the role of attention from opaque mechanism to quantifiable descriptor, SVDA redefines interpretability in monocular depth estimation and opens a principled avenue toward transparent dense prediction models.
- Abstract(参考訳): 単眼深度推定は、ロボット工学、AR、自律運転などの応用でコンピュータビジョンの中心的な問題であるが、現代のトランスフォーマーアーキテクチャを駆動する自己認識メカニズムはいまだ不透明である。
SVD-Inspired Attention (SVDA) をDense Prediction Transformer (DPT) に導入し、高密度予測タスクに対する注意のスペクトル構造を初めて定式化した。
SVDAは、学習可能な対角行列を正規化クエリキーの相互作用に埋め込むことで、スペクトル変調から方向のアライメントを分離し、ポストホック近似よりも本質的に解釈可能なアテンションマップを可能にする。
KITTIとNYU-v2の実験では、SVDAは小さな計算オーバーヘッドのみを加えながら予測精度をわずかに改善している。
さらに重要なのは、SVDAはエントロピー、ランク、空間性、アライメント、選択性、ロバスト性を定量化する6つのスペクトル指標をアンロックする。
これらは、トレーニング中に注意がどのように組織されるか、標準のトランスフォーマーではアクセスできない洞察において、一貫性のあるデータセットと奥行きに関するパターンを明らかにします。
SVDAは、不透明なメカニズムから定量化記述子に注意の役割を移すことで、単眼深度推定における解釈可能性を再定義し、透明な密度予測モデルに向けて原則化された道を開く。
関連論文リスト
- Interpretable Vision Transformers in Image Classification via SVDA [5.8833115420537085]
視覚変換器(ViT)は画像分類において最先端のパフォーマンスを達成したが、その注意機構は不透明であり、密集した非構造的な振る舞いを示すことが多い。
これまでに提案したSVD-Inspired Attention (SVDA) 機構を ViT アーキテクチャに適用し,解釈性,空間性,スペクトル構造を向上する幾何的に基底化された定式化を導入する。
論文 参考訳(メタデータ) (2026-02-11T16:20:32Z) - Stabilizing Information Flow Entropy: Regularization for Safe and Interpretable Autonomous Driving Perception [8.543667347406286]
我々はディープニューラルエンコーダを階層型通信チェーンとして再認識し、生の知覚入力をタスク関連潜在特徴に圧縮する。
Elossは,軽量でプラグアンドプレイの学習目標として設計された,エントロピーベースの新しい正規化器である。
論文 参考訳(メタデータ) (2025-09-18T17:01:27Z) - SVDformer: Direction-Aware Spectral Graph Embedding Learning via SVD and Transformer [24.552037222044504]
SVDformerは、方向対応グラフ表現学習のためのSVDとTransformerアーキテクチャを相乗化する新しいフレームワークである。
6つの有向グラフベンチマークの実験は、SVDformerがノード分類タスクにおける最先端のGNNと方向対応のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-19T01:32:18Z) - Optical aberrations in autonomous driving: Physics-informed parameterized temperature scaling for neural network uncertainty calibration [49.03824084306578]
本稿では,ニューラルネットワークのキャリブレーションアーキテクチャに物理的帰納バイアスを組み込むことにより,AIターゲットアプリケーションの堅牢性と信頼性を高めることを提案する。
信頼に値する不確実性表現と認識連鎖の総合的検証戦略の道を開く。
論文 参考訳(メタデータ) (2024-12-18T10:36:46Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [31.995016095663544]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。
提案するフレームワークであるLOPR(Latent Occupancy Prediction)は、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
論文 参考訳(メタデータ) (2024-07-30T18:37:59Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Forecasting of depth and ego-motion with transformers and
self-supervision [0.0]
本稿では,深度とエゴ運動のエンドツーエンド自己監督予測の問題に対処する。
原画像の列が与えられた場合、教師付き自己測光損失を用いて、幾何と自我運動の両方を予測することを目的とする。
アーキテクチャは、畳み込みモジュールとトランスフォーマーモジュールの両方を使って設計されている。
論文 参考訳(メタデータ) (2022-06-15T10:14:11Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。