論文の概要: Enhancing Transformer-Based Vision Models: Addressing Feature Map Anomalies Through Novel Optimization Strategies
- arxiv url: http://arxiv.org/abs/2509.19687v1
- Date: Wed, 24 Sep 2025 01:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.657744
- Title: Enhancing Transformer-Based Vision Models: Addressing Feature Map Anomalies Through Novel Optimization Strategies
- Title(参考訳): トランスフォーマーに基づく視覚モデルの拡張:新しい最適化手法による特徴マップ異常への対処
- Authors: Sumit Mamtani,
- Abstract要約: 視覚変換器(ViT)は、幅広いコンピュータビジョンタスクにおいて優れた性能を示している。
特徴マップの構造化ノイズアーティファクトは、セグメンテーションや深さ推定といった下流のアプリケーションを妨げる。
本稿では2つの新しい軽量な最適化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have demonstrated superior performance across a wide range of computer vision tasks. However, structured noise artifacts in their feature maps hinder downstream applications such as segmentation and depth estimation. We propose two novel and lightweight optimisation techniques- Structured Token Augmentation (STA) and Adaptive Noise Filtering (ANF)- to improve interpretability and mitigate these artefacts. STA enhances token diversity through spatial perturbations during tokenisation, while ANF applies learnable inline denoising between transformer layers. These methods are architecture-agnostic and evaluated across standard benchmarks, including ImageNet, Ade20k, and NYUv2. Experimental results show consistent improvements in visual quality and task performance, highlighting the practical effectiveness of our approach.
- Abstract(参考訳): 視覚変換器(ViT)は、幅広いコンピュータビジョンタスクにおいて優れた性能を示している。
しかし,特徴マップにおける構造的ノイズアーティファクトは,セグメンテーションや深さ推定といった下流の応用を妨げる。
そこで本稿では,構造化トークン拡張(STA)と適応ノイズフィルタリング(ANF)の2つの新しい軽量最適化手法を提案する。
STAはトークン化中の空間摂動を通じてトークンの多様性を高め、ANFはトランスフォーマー層間の学習可能なインラインデノゲーションを適用している。
これらのメソッドはアーキテクチャに依存しず、ImageNet、Ade20k、NYUv2などの標準ベンチマークで評価されている。
実験の結果,視覚的品質とタスク性能が一貫した改善を示し,本手法の実用性を強調した。
関連論文リスト
- Structure-guided Diffusion Transformer for Low-Light Image Enhancement [19.90700077104533]
我々は、低光強調タスクにDiTを導入し、新しい構造誘導拡散変換器に基づく低光強調フレームワークを設計する。
ウェーブレット変換により特徴量を圧縮し、モデルの推論効率を改善し、多方向周波数帯域を捕捉する。
さらに,構造誘導型注意ブロック(SAB)を提案し,テクスチャに富んだトークンに注意を払い,ノイズ予測におけるノイズ領域からの干渉を避ける。
論文 参考訳(メタデータ) (2025-04-21T12:30:01Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Adaptive Step-size Perception Unfolding Network with Non-local Hybrid Attention for Hyperspectral Image Reconstruction [0.39134031118910273]
FISTAアルゴリズムに基づく深層展開ネットワークであるASPUNを提案する。
さらに,非局所的ハイブリッドアテンショントランス (NHAT) モジュールを設計し,コンバータの受容場特性をフル活用する。
実験の結果, ASPUNは既存のSOTAアルゴリズムよりも優れ, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-07-04T16:09:52Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。