論文の概要: GFT: Gradient Focal Transformer
- arxiv url: http://arxiv.org/abs/2504.09852v1
- Date: Mon, 14 Apr 2025 03:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:49.321159
- Title: GFT: Gradient Focal Transformer
- Title(参考訳): GFT:グラディエントフーカルトランス
- Authors: Boris Kriuk, Simranjit Kaur Gill, Shoaib Aslam, Amir Fakhrutdinov,
- Abstract要約: 本稿では,GFT(Gradient Focal Transformer)について紹介する。
GFTは、クラス識別機能を動的に優先順位付けするために、GALA(Gradient Attention Learning Alignment)メカニズムを統合している。
GFTは、FGVC Aircraft、Food-101、および93Mパラメータのデータセット上でSOTA精度を達成し、ViTベースの先進的なFGICモデルよりも効率良く性能を向上する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Fine-Grained Image Classification (FGIC) remains a complex task in computer vision, as it requires models to distinguish between categories with subtle localized visual differences. Well-studied CNN-based models, while strong in local feature extraction, often fail to capture the global context required for fine-grained recognition, while more recent ViT-backboned models address FGIC with attention-driven mechanisms but lack the ability to adaptively focus on truly discriminative regions. TransFG and other ViT-based extensions introduced part-aware token selection to enhance attention localization, yet they still struggle with computational efficiency, attention region selection flexibility, and detail-focus narrative in complex environments. This paper introduces GFT (Gradient Focal Transformer), a new ViT-derived framework created for FGIC tasks. GFT integrates the Gradient Attention Learning Alignment (GALA) mechanism to dynamically prioritize class-discriminative features by analyzing attention gradient flow. Coupled with a Progressive Patch Selection (PPS) strategy, the model progressively filters out less informative regions, reducing computational overhead while enhancing sensitivity to fine details. GFT achieves SOTA accuracy on FGVC Aircraft, Food-101, and COCO datasets with 93M parameters, outperforming ViT-based advanced FGIC models in efficiency. By bridging global context and localized detail extraction, GFT sets a new benchmark in fine-grained recognition, offering interpretable solutions for real-world deployment scenarios.
- Abstract(参考訳): ファイングレーンド画像分類(FGIC)は、微妙な局所的な視覚的差異を持つカテゴリを区別するモデルを必要とするため、コンピュータビジョンにおいて複雑な課題である。
よく研究されたCNNベースのモデルは、局所的な特徴抽出に強いが、細粒度認識に必要なグローバルコンテキストを捉えることができず、より最近のViTバックボンドモデルは、注意駆動機構を備えたFGICに対処するが、真に差別的な領域に適応的にフォーカスする能力に欠ける。
TransFGや他のViTベースの拡張は、注意のローカライゼーションを高めるために部分認識トークン選択を導入したが、複雑な環境では計算効率、注意領域選択の柔軟性、詳細焦点の物語に苦慮している。
本稿では、FGICタスク用に作られた新しいViTベースのフレームワークであるGFT(Gradient Focal Transformer)を紹介する。
GFTは、GALA(Gradient Attention Learning Alignment)メカニズムを統合し、注意勾配フローを分析して、クラス識別特徴を動的に優先順位付けする。
プログレッシブ・パッチ・セレクション(PPS)戦略と組み合わせて、このモデルはより少ない情報領域を徐々にフィルタリングし、計算オーバーヘッドを低減し、細部への感度を高める。
GFTは、93Mパラメータを持つFGVC Aircraft、Food-101、COCOデータセットのSOTA精度を達成し、ViTベースの先進的なFGICモデルを効率良く上回る。
グローバルコンテキストとローカライズされた詳細抽出をブリッジすることによって、GFTは、現実世界のデプロイメントシナリオに対する解釈可能なソリューションを提供する、きめ細かい認識の新たなベンチマークを設定する。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - GLC++: Source-Free Universal Domain Adaptation through Global-Local Clustering and Contrastive Affinity Learning [84.54244771470012]
Source-Free Universal Domain Adaptation (SF-UniDA) は、共通カテゴリに属する「既知の」データを正確に分類することを目的としている。
本稿では,適応的な一対一のグローバルクラスタリングアルゴリズムを備えた新しいグローバル・ローカルクラスタリング(GLC)手法を提案する。
我々はGLCをGLC++に進化させ、対照的な親和性学習戦略を統合する。
論文 参考訳(メタデータ) (2024-03-21T13:57:45Z) - ASWT-SGNN: Adaptive Spectral Wavelet Transform-based Self-Supervised
Graph Neural Network [20.924559944655392]
本稿では,適応スペクトルウェーブレット変換を用いた自己教師付きグラフニューラルネットワーク(ASWT-SGNN)を提案する。
ASWT-SGNNは高密度スペクトル領域におけるフィルタ関数を正確に近似し、コストの高い固有分解を避ける。
ノード分類タスクにおける最先端モデルに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-10T03:07:42Z) - Hybrid Focal and Full-Range Attention Based Graph Transformers [0.0]
本稿では,Focal と Full-Range Graph Transformer (FFGT) という,純粋に注目に基づくアーキテクチャを提案する。
FFGTは、従来のフルレンジアテンションとエゴネットへのKホップアテンションを組み合わせることで、グローバル情報とローカル情報の両方を集約する。
提案手法は,各種オープンデータセット上での既存のグラフ変換器の性能を向上させる。
論文 参考訳(メタデータ) (2023-11-08T12:53:07Z) - Unlocking the Potential of Prompt-Tuning in Bridging Generalized and
Personalized Federated Learning [49.72857433721424]
Vision Transformer (ViT) と Visual Prompt Tuning (VPT) は、様々なコンピュータビジョンタスクの効率を改善して最先端のパフォーマンスを実現する。
本稿では,GFL(Generalized FL)とPFL(Personalized FL)を組み合わせた新しいアルゴリズムSGPTを提案する。
論文 参考訳(メタデータ) (2023-10-27T17:22:09Z) - Salient Mask-Guided Vision Transformer for Fine-Grained Classification [48.1425692047256]
きめ細かい視覚分類(FGVC)は、コンピュータビジョンの問題である。
その主な難しさの1つは、最も差別的な階級間のばらつきを捉えることである。
シンプルで効果的なマスク誘導型視覚変換器(SM-ViT)を導入する。
論文 参考訳(メタデータ) (2023-05-11T19:24:33Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。