論文の概要: GlobalMamba: Global Image Serialization for Vision Mamba
- arxiv url: http://arxiv.org/abs/2410.10316v1
- Date: Mon, 14 Oct 2024 09:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:24:32.219492
- Title: GlobalMamba: Global Image Serialization for Vision Mamba
- Title(参考訳): GlobalMamba: Vision Mambaのグローバルイメージシリアライズ
- Authors: Chengkun Wang, Wenzhao Zheng, Jie Zhou, Jiwen Lu,
- Abstract要約: 視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。
既存のほとんどの方法はパッチベースの画像トークン化を採用し、因果処理のためにそれらを1Dシーケンスにフラット化する。
本稿では,グローバルな画像シリアライズ手法を提案し,その画像を因果トークンのシーケンスに変換する。
- 参考スコア(独自算出の注目度): 73.50475621164037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision mambas have demonstrated strong performance with linear complexity to the number of vision tokens. Their efficiency results from processing image tokens sequentially. However, most existing methods employ patch-based image tokenization and then flatten them into 1D sequences for causal processing, which ignore the intrinsic 2D structural correlations of images. It is also difficult to extract global information by sequential processing of local patches. In this paper, we propose a global image serialization method to transform the image into a sequence of causal tokens, which contain global information of the 2D image. We first convert the image from the spatial domain to the frequency domain using Discrete Cosine Transform (DCT) and then arrange the pixels with corresponding frequency ranges. We further transform each set within the same frequency band back to the spatial domain to obtain a series of images before tokenization. We construct a vision mamba model, GlobalMamba, with a causal input format based on the proposed global image serialization, which can better exploit the causal relations among image sequences. Extensive experiments demonstrate the effectiveness of our GlobalMamba, including image classification on ImageNet-1K, object detection on COCO, and semantic segmentation on ADE20K.
- Abstract(参考訳): 視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。
画像トークンを逐次処理することで効率が向上する。
しかし、既存のほとんどの手法では、パッチベースの画像トークン化を採用し、それらを因果処理のために1次元シーケンスにフラット化することで、画像の固有の2次元構造的相関を無視している。
また,局所パッチの逐次処理によるグローバル情報抽出も困難である。
本稿では,2次元画像のグローバルな情報を含む因果トークン列に変換するグローバルな画像シリアライズ手法を提案する。
まず、離散コサイン変換(DCT)を用いて空間領域から周波数領域に変換し、対応する周波数範囲の画素を配置する。
さらに、同じ周波数帯域内の各集合を空間領域に変換し、トークン化前に一連の画像を取得する。
視覚マンバモデルであるGlobalMambaを,提案したグローバル画像シリアライゼーションに基づく因果入力形式で構築し,画像列間の因果関係をよりよく活用する。
大規模な実験では、ImageNet-1Kの画像分類、COCOのオブジェクト検出、ADE20Kのセマンティックセグメンテーションなど、GlobalMambaの有効性が実証されている。
関連論文リスト
- Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Vision Transformers with Mixed-Resolution Tokenization [34.18534105043819]
Vision Transformer は入力画像を等サイズのパッチの空間的に規則的なグリッドに分割して処理する。
本稿では,標準均一格子をトークンの混合分解能シーケンスに置き換えた新しい画像トークン化方式を提案する。
クアドツリーアルゴリズムと新しいサリエンシースコアラを用いて、画像の低彩度領域を低解像度で処理するパッチモザイクを構築する。
論文 参考訳(メタデータ) (2023-04-01T10:39:46Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。