論文の概要: AdaptViG: Adaptive Vision GNN with Exponential Decay Gating
- arxiv url: http://arxiv.org/abs/2511.09942v1
- Date: Fri, 14 Nov 2025 01:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.593017
- Title: AdaptViG: Adaptive Vision GNN with Exponential Decay Gating
- Title(参考訳): AdaptViG: 指数減少ゲーティングを備えたAdaptive Vision GNN
- Authors: Mustafa Munir, Md Mostafijur Rahman, Radu Marculescu,
- Abstract要約: AdaptViGは、Adaptive Graph Convolutionと呼ばれる新しいグラフ構築メカニズムを導入した、効率的で強力なVision GNNである。
提案手法は,ビジョンGNN間の精度と効率の新たなトレードオフを実現する。
- 参考スコア(独自算出の注目度): 30.689461713712316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Graph Neural Networks (ViGs) offer a new direction for advancements in vision architectures. While powerful, ViGs often face substantial computational challenges stemming from their graph construction phase, which can hinder their efficiency. To address this issue we propose AdaptViG, an efficient and powerful hybrid Vision GNN that introduces a novel graph construction mechanism called Adaptive Graph Convolution. This mechanism builds upon a highly efficient static axial scaffold and a dynamic, content-aware gating strategy called Exponential Decay Gating. This gating mechanism selectively weighs long-range connections based on feature similarity. Furthermore, AdaptViG employs a hybrid strategy, utilizing our efficient gating mechanism in the early stages and a full Global Attention block in the final stage for maximum feature aggregation. Our method achieves a new state-of-the-art trade-off between accuracy and efficiency among Vision GNNs. For instance, our AdaptViG-M achieves 82.6% top-1 accuracy, outperforming ViG-B by 0.3% while using 80% fewer parameters and 84% fewer GMACs. On downstream tasks, AdaptViG-M obtains 45.8 mIoU, 44.8 APbox, and 41.1 APmask, surpassing the much larger EfficientFormer-L7 by 0.7 mIoU, 2.2 APbox, and 2.1 APmask, respectively, with 78% fewer parameters.
- Abstract(参考訳): Vision Graph Neural Networks (ViGs)は、ビジョンアーキテクチャの進歩に新たな方向性を提供する。
強力ではあるが、ViGはグラフ構築フェーズから生じる重大な計算上の課題に直面し、効率を損なうことがある。
この問題に対処するために、Adaptive Graph Convolutionと呼ばれる新しいグラフ構築メカニズムを導入した、効率的で強力なVision GNNであるAdaptViGを提案する。
このメカニズムは、高効率な静的軸足場と、指数決定ゲーティング(Exponential Decay Gating)と呼ばれる動的でコンテンツ対応のゲーティング戦略の上に構築される。
このゲーティング機構は、特徴類似性に基づいて長距離接続を選択的に重み付けする。
さらにAdaptViGでは,初期における効率的なゲーティング機構と最終段階における完全なグローバルアテンションブロックを併用して,機能アグリゲーションを最大化するハイブリッド戦略を採用している。
提案手法は,ビジョンGNN間の精度と効率の新たなトレードオフを実現する。
例えば、AdaptViG-Mは82.6%の精度でViG-Bを0.3%上回り、パラメータは80%減、GMACは84%減った。
下流のタスクでは、AdaptViG-Mは45.8 mIoU、44.8 APbox、41.1 APmaskを取得し、より大きなEfficientFormer-L7を0.7 mIoU、2.2 APbox、2.1 APmaskに上回り、78%のパラメータを持つ。
関連論文リスト
- Multi-Scale High-Resolution Logarithmic Grapher Module for Efficient Vision GNNs [25.60289758013904]
ビジョングラフニューラルネット(ViG)は、従来の畳み込みニューラルネット(CNN)とトランスフォーマー(ViT)に対抗して、ビジョンタスクにおける約束を実証した。
本稿では,長距離リンク数を制限することで性能を向上させるため,新たなグラフ構築手法LSGCを提案する。
当社の最小モデルであるTi-LogViGは、ImageNet-1Kの平均トップ1精度が71.7%、標準偏差が0.2%である。
論文 参考訳(メタデータ) (2025-10-15T16:47:09Z) - ClusterViG: Efficient Globally Aware Vision GNNs via Image Partitioning [7.325055402812975]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)がコンピュータビジョン(CV)の分野を支配している。
このボトルネックに対処する最近の研究は、非構造化グラフを構築するためのGNNの柔軟性に制約を課している。
そこで本稿では, 動的効率性グラフ畳み込み (DEGC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-18T02:59:10Z) - GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNs [5.895049552752008]
ビジョングラフニューラルネットワーク(ViG)は、コンピュータビジョンの探索のための新しい道を提供する。
ViGsの主なボトルネックは、グラフ構築に使用される非効率なk-アネレスト隣り(KNN)演算である。
KNNよりも効率的な動的軸グラフ構築(DAGC)を設計するための新しい手法を提案する。
また,DAGCを用いた新しいCNN-GNNアーキテクチャであるGreedyViGを提案する。
論文 参考訳(メタデータ) (2024-05-10T23:21:16Z) - HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs [102.4965532024391]
Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
論文 参考訳(メタデータ) (2024-03-18T17:34:29Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - PVG: Progressive Vision Graph for Vision Recognition [48.11440886492801]
本稿では,視覚認識タスクのためのプログレッシブビジョングラフ(PVG)アーキテクチャを提案する。
PVGには3つの主要コンポーネントが含まれている: 1) プログレッシブ・セパレート・グラフ・コンストラクション(PSGC)、2) 隣ノードの情報収集と更新モジュール、3) グラフエラーリニア・ユニット(GraphLU)。
論文 参考訳(メタデータ) (2023-08-01T14:35:29Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。