論文の概要: Dynamic Granularity Matters: Rethinking Vision Transformers Beyond Fixed Patch Splitting
- arxiv url: http://arxiv.org/abs/2511.19021v1
- Date: Mon, 24 Nov 2025 11:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.184319
- Title: Dynamic Granularity Matters: Rethinking Vision Transformers Beyond Fixed Patch Splitting
- Title(参考訳): 動的粒度 - 固定パッチスプリット以上のビジョントランスフォーマーを再考する
- Authors: Qiyang Yu, Yu Fang, Tianrui Li, Xuemei Cao, Yan Chen, Jianghao Li, Fan Min,
- Abstract要約: ビジョントランスフォーマー(ViT)は、グローバルな依存関係をキャプチャする強力な能力を示しているが、多くの場合、きめ細かい局所的な詳細を効率的に表現するのに苦労している。
Grc-ViT(Granularity-driven Vision Transformer)は、画像の複雑さに基づいて視覚的な粒度を適応的に調整する動的粗い微細化フレームワークである。
2つの学習可能なパラメータとベータは、グローバルな推論と局所的な知覚のバランスを取るためにエンドツーエンドに最適化されている。
- 参考スコア(独自算出の注目度): 15.751224470424786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have demonstrated strong capabilities in capturing global dependencies but often struggle to efficiently represent fine-grained local details. Existing multi-scale approaches alleviate this issue by integrating hierarchical or hybrid features; however, they rely on fixed patch sizes and introduce redundant computation. To address these limitations, we propose Granularity-driven Vision Transformer (Grc-ViT), a dynamic coarse-to-fine framework that adaptively adjusts visual granularity based on image complexity. It comprises two key stages: (1) Coarse Granularity Evaluation module, which assesses visual complexity using edge density, entropy, and frequency-domain cues to estimate suitable patch and window sizes; (2) Fine-grained Refinement module, which refines attention computation according to the selected granularity, enabling efficient and precise feature learning. Two learnable parameters, α and \b{eta}, are optimized end-to-end to balance global reasoning and local perception. Comprehensive evaluations demonstrate that Grc-ViT enhances fine-grained discrimination while achieving a superior trade-off between accuracy and computational efficiency.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、グローバルな依存関係をキャプチャする強力な能力を示しているが、多くの場合、きめ細かい局所的な詳細を効率的に表現するのに苦労している。
既存のマルチスケールアプローチは階層的あるいはハイブリッドな機能を統合することでこの問題を軽減するが、それらは固定パッチサイズに依存し、冗長な計算を導入する。
これらの制約に対処するために、画像の複雑さに基づいて視覚の粒度を適応的に調整する動的粗いフレームワークであるグラニュラリティ駆動型ビジョントランスフォーマー(Grc-ViT)を提案する。
1) エッジ密度,エントロピー,周波数領域のキューを用いて視覚的複雑さを評価する粗粒度評価モジュール,(2) 選択した粒度に応じて注意計算を洗練し,効率的かつ正確な特徴学習を可能にする微粒化モジュールからなる。
学習可能な2つのパラメータ α と \b{eta} は、グローバルな推論と局所的な知覚のバランスをとるために、エンドツーエンドに最適化されている。
総合評価では、Grc-ViTは精度と計算効率の優れたトレードオフを達成しつつ、きめ細かな識別を高めることが示されている。
関連論文リスト
- DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Foundation Models [45.12546316524245]
DARTは、完全に微分可能な動的領域適応型トケナイザである。
DARTは学習可能な領域スコアと量子ベースのパーティショニングを使用して、さまざまなサイズのコンテンツ認識パッチを生成する。
DART-Smallは、DiT-Base86の性能とほぼ2倍の推論速度で一致している。
論文 参考訳(メタデータ) (2025-06-12T06:25:37Z) - Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。
本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。
我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文 参考訳(メタデータ) (2023-04-09T13:37:59Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - MIA-Former: Efficient and Robust Vision Transformers via Multi-grained
Input-Adaptation [14.866949449862226]
Vision Transformer (ViT) モデルは、現実のリソース制約されたデバイスに組み込むには計算コストがかかりすぎる。
入力適応型視覚変換フレームワークMIA-Formerを提案する。
提案するMIA-Formerフレームワークは,入力画像の難易度に適応した予算を効果的に配分できることを確認した。
論文 参考訳(メタデータ) (2021-12-21T22:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。