論文の概要: I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.10334v1
- Date: Fri, 12 Sep 2025 15:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.140864
- Title: I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation
- Title(参考訳): I-セグメンタ:効率的なセマンティックセグメンテーションのための整数オンリー視覚変換器
- Authors: Jordan Sassoon, Michal Szczepanski, Martyna Poreba,
- Abstract要約: 量子化は効率を改善するための効果的な戦略を提供するが、ViTベースのセグメンテーションモデルは低い精度で脆弱である。
I-Segmenterは完全整数のみのViTセグメンテーションフレームワークである。
I-セグメンタは、シングルキャリブレーション画像のワンショットPTQにおいても、競合精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have recently achieved strong results in semantic segmentation, yet their deployment on resource-constrained devices remains limited due to their high memory footprint and computational cost. Quantization offers an effective strategy to improve efficiency, but ViT-based segmentation models are notoriously fragile under low precision, as quantization errors accumulate across deep encoder-decoder pipelines. We introduce I-Segmenter, the first fully integer-only ViT segmentation framework. Building on the Segmenter architecture, I-Segmenter systematically replaces floating-point operations with integer-only counterparts. To further stabilize both training and inference, we propose $\lambda$-ShiftGELU, a novel activation function that mitigates the limitations of uniform quantization in handling long-tailed activation distributions. In addition, we remove the L2 normalization layer and replace bilinear interpolation in the decoder with nearest neighbor upsampling, ensuring integer-only execution throughout the computational graph. Extensive experiments show that I-Segmenter achieves accuracy within a reasonable margin of its FP32 baseline (5.1 % on average), while reducing model size by up to 3.8x and enabling up to 1.2x faster inference with optimized runtimes. Notably, even in one-shot PTQ with a single calibration image, I-Segmenter delivers competitive accuracy, underscoring its practicality for real-world deployment.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は近年セマンティックセグメンテーションにおいて大きな成果を上げているが、メモリフットプリントと計算コストのためにリソース制限されたデバイスへのデプロイメントは制限されている。
量子化は効率を改善するための効果的な戦略を提供するが、ViTベースのセグメンテーションモデルは、ディープエンコーダ-デコーダパイプライン間で量子化エラーが蓄積されるため、低い精度で脆弱であることが知られている。
I-Segmenterは完全整数のみのViTセグメンテーションフレームワークである。
Segmenterアーキテクチャ上に構築されているI-Segmenterは、浮動小数点演算を整数のみの演算に体系的に置き換える。
トレーニングと推論の双方をより安定させるために、長い尾のアクティベーション分布を扱う際の一様量子化の制限を緩和する新しいアクティベーション関数である$\lambda$-ShiftGELUを提案する。
さらに、L2正規化層を除去し、デコーダ内の双線形補間を近傍のアップサンプリングに置き換え、計算グラフ全体を通して整数のみの実行を保証する。
大規模な実験により、I-SegmenterはFP32ベースラインの合理的なマージン(平均5.1%)内で精度を達成し、モデルサイズを最大3.8倍に削減し、最適化されたランタイムで最大1.2倍高速な推論を可能にした。
特に、単一のキャリブレーションイメージを持つワンショットPTQであっても、I-Segmenterは競合する精度を提供し、実世界の展開の実用性を強調している。
関連論文リスト
- An Efficient Dual-Line Decoder Network with Multi-Scale Convolutional Attention for Multi-organ Segmentation [5.6873464177873245]
本稿では,効率的なデュアルラインデコーダセグメンテーションネットワーク(EDLDNet)を提案する。
提案手法は, モデルロバスト性向上のため, トレーニング時に構造的摂動を取り入れることを学ぶノイズデコーダを特徴とする。
両デコーダから複数スケールのセグメンテーションマスクを活用することにより,変異に基づく損失関数を用いてモデルの一般化を促進する。
論文 参考訳(メタデータ) (2025-08-23T12:34:27Z) - FA-Seg: A Fast and Accurate Diffusion-Based Method for Open-Vocabulary Segmentation [1.4525238046020867]
Open-vocabulary semantic segmentationは、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。
本稿では,拡散モデルに基づくオープン語彙セグメンテーションのためのトレーニングフリーフレームワークであるFA-Segを提案する。
論文 参考訳(メタデータ) (2025-06-29T16:41:41Z) - Transformers with Joint Tokens and Local-Global Attention for Efficient Human Pose Estimation [34.99437411281915]
本稿では,精度,効率,ロバストな2次元ポーズ推定のための2つのViTモデルを提案する。
6つのベンチマーク実験により,提案手法が最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-02-28T22:34:22Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - InverseForm: A Loss Function for Structured Boundary-Aware Segmentation [80.39674800972182]
逆変換ネットワークを用いたセマンティックセグメンテーションのための新しい境界認識損失項を提案する。
このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完する。
室内および屋外のセグメンテーションベンチマークにおける損失関数の定量的および定性的効果を解析した。
論文 参考訳(メタデータ) (2021-04-06T18:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。