論文の概要: ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers
- arxiv url: http://arxiv.org/abs/2406.09936v1
- Date: Fri, 14 Jun 2024 11:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:05:00.604511
- Title: ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers
- Title(参考訳): ALGM: 平面視変換器を用いた効率的なセマンティックセマンティックセグメンテーションのための適応型局所点-球面トケマージ
- Authors: Narges Norouzi, Svetlana Orlova, Daan de Geus, Gijs Dubbelman,
- Abstract要約: Adaptive Local-then-Global Merging (ALGM) は、平易な視覚変換器を用いたセグメンテーションネットワークのためのトークン削減手法である。
ALGMはスループットを最大100%改善し、平均IoUを最大+1.1まで向上させることができることを示す。
私たちのアプローチは推論中に適応的であり、アプリケーションによっては、同じモデルを最適な効率や精度で使用することができます。
- 参考スコア(独自算出の注目度): 4.379383278029336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents Adaptive Local-then-Global Merging (ALGM), a token reduction method for semantic segmentation networks that use plain Vision Transformers. ALGM merges tokens in two stages: (1) In the first network layer, it merges similar tokens within a small local window and (2) halfway through the network, it merges similar tokens across the entire image. This is motivated by an analysis in which we found that, in those situations, tokens with a high cosine similarity can likely be merged without a drop in segmentation quality. With extensive experiments across multiple datasets and network configurations, we show that ALGM not only significantly improves the throughput by up to 100%, but can also enhance the mean IoU by up to +1.1, thereby achieving a better trade-off between segmentation quality and efficiency than existing methods. Moreover, our approach is adaptive during inference, meaning that the same model can be used for optimal efficiency or accuracy, depending on the application. Code is available at https://tue-mps.github.io/ALGM.
- Abstract(参考訳): 本研究では,アダプティブローカル-then-Global Merging (ALGM) を提案する。
ALGMはトークンを2つのステージにマージする: (1) 最初のネットワーク層では、小さなローカルウィンドウに類似のトークンをマージし、(2)ネットワークの中途で、画像全体にわたって類似のトークンをマージする。
これは、これらの状況において、コサインの類似度が高いトークンは、セグメンテーション品質の低下なしにマージ可能であることを発見した分析によって動機づけられた。
複数のデータセットとネットワーク構成にわたる広範な実験により、ALGMはスループットを最大100%向上するだけでなく、平均IoUを最大+1.1向上させることで、既存の方法よりもセグメンテーション品質と効率のトレードオフを達成できることを示した。
さらに,本手法は推論中に適応的であり,アプリケーションによっては,同じモデルを最適な効率や精度で利用することができる。
コードはhttps://tue-mps.github.io/ALGMで公開されている。
関連論文リスト
- Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Efficient Remote Sensing Segmentation With Generative Adversarial
Transformer [5.728847418491545]
本稿では,高精度なセマンティックセマンティックセグメンテーションを実現するためのGATrans(Generative Adversarial Transfomer)を提案する。
このフレームワークはGTNet(Global Transformer Network)をジェネレータとして利用し、マルチレベル機能を効率的に抽出する。
ベイヒンゲンデータセットの広範囲な実験により、我々のアプローチの有効性を検証し、平均F1スコアは90.17%、総合精度は91.92%に達した。
論文 参考訳(メタデータ) (2023-10-02T15:46:59Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - FIT: Far-reaching Interleaved Transformers [15.302386132016496]
本稿では,自己アテンションと適応計算を効率よく行うトランスフォーマーアーキテクチャを提案する。
ローカルレイヤは各グループ内のデータトークンで動作し、グローバルレイヤはより小さな潜在トークンで動作します。
FITは6400$times$6400イメージや16GBのメモリ容量で(パッチトークン化後の)160Kトークンなど、ギガビットスケールのデータをエンドツーエンドでトレーニングする可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T03:56:44Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer
via Hierarchical Mask Calibration [49.16591283724376]
単一ネットワーク内でのドメイン適応型インスタンス分割とセマンティックセマンティックセマンティックセマンティクスを同時に実現可能な,シンプルで統一されたドメイン適応型パン光学セマンティクスセマンティクス変換器UniDAformerを設計する。
UniDAformerは階層型マスク(Hierarchical Mask, HMC)を導入し、オンザフライでのオンラインセルフトレーニングを通じて、領域、スーパーピクセル、注釈付きピクセルのレベルで不正確な予測を修正した。
1) 統合されたドメイン適応型パン光学適応を可能にする; 2) 誤った予測を緩和し、ドメイン適応型パン光学セグメンテーションを効果的に改善する; 3) より単純なトレーニングと推論パイプラインでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2022-06-30T07:32:23Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。