Fugu-MT 論文翻訳(概要): EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

論文の概要: EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

arxiv url: http://arxiv.org/abs/2411.15241v2
Date: Sat, 22 Mar 2025 02:46:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.296556
Title: EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality
Title（参考訳）: EfficientViM:隠れた状態ミキサーをベースとした高効率ビジョンマンバ
Authors: Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim,
Abstract要約: 隠れ状態ミキサーに基づく状態空間双対性(HSM-SSD)に基づく新しいアーキテクチャであるEfficient Vision Mambaを紹介する。隠れ状態の表現力を強化するために,多段隠れ状態融合を提案し,メモリバウンド操作によるボトルネックを軽減する設計を提案する。その結果、EfficientViMファミリはImageNet-1k上で新しい最先端のスピード精度トレードオフを実現し、より高速な第2世代モデルSHViTよりも最大で0.7%の性能向上を実現した。
参考スコア（独自算出の注目度）: 16.576495786546612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For the deployment of neural networks in resource-constrained environments, prior works have built lightweight architectures with convolution and attention for capturing local and global dependencies, respectively. Recently, the state space model (SSM) has emerged as an effective operation for global interaction with its favorable linear computational cost in the number of tokens. To harness the efficacy of SSM, we introduce Efficient Vision Mamba (EfficientViM), a novel architecture built on hidden state mixer-based state space duality (HSM-SSD) that efficiently captures global dependencies with further reduced computational cost. With the observation that the runtime of the SSD layer is driven by the linear projections on the input sequences, we redesign the original SSD layer to perform the channel mixing operation within compressed hidden states in the HSM-SSD layer. Additionally, we propose multi-stage hidden state fusion to reinforce the representation power of hidden states and provide the design to alleviate the bottleneck caused by the memory-bound operations. As a result, the EfficientViM family achieves a new state-of-the-art speed-accuracy trade-off on ImageNet-1k, offering up to a 0.7% performance improvement over the second-best model SHViT with faster speed. Further, we observe significant improvements in throughput and accuracy compared to prior works, when scaling images or employing distillation training. Code is available at https://github.com/mlvlab/EfficientViM.
Abstract（参考訳）: リソース制約のある環境にニューラルネットワークを配置するために、以前の研究は、それぞれローカルとグローバルの依存関係をキャプチャするための畳み込みと注目を備えた軽量アーキテクチャを構築してきた。近年, 状態空間モデル (SSM) は, トークン数において, 有利な線形計算コストとグローバル相互作用の効果的な操作として出現している。 SSMの有効性を活用するために,隠れ状態ミキサーに基づく状態空間双対性(HSM-SSD)に基づく新しいアーキテクチャであるEfficient Vision Mamba(EfficientViM)を導入する。入力シーケンス上の線形プロジェクションによってSSD層のランタイムが駆動されるという観察により,HSM-SSD層内の圧縮された隠蔽状態内でチャネル混合操作を行うために,元のSSD層を再設計する。さらに,隠れ状態の表現力を向上し,メモリバウンド操作によるボトルネックを軽減するために,多段隠れ状態融合を提案する。その結果、EfficientViMファミリはImageNet-1k上で新しい最先端のスピード精度トレードオフを実現し、より高速な第2世代モデルSHViTよりも最大で0.7%の性能向上を実現した。さらに, 画像のスケーリングや蒸留訓練の実施において, 従来の作業に比べてスループットと精度が大幅に向上した。コードはhttps://github.com/mlvlab/EfficientViM.comで入手できる。

関連論文リスト

RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文参考訳（メタデータ） (2025-05-02T12:21:44Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables [60.95483707212802]
DnLUTは、リソース消費を最小限に抑えながら高品質なカラーイメージを実現する、超効率的なルックアップテーブルベースのフレームワークである。 Pairwise Channel Mixer(PCM)は、チャネル間の相関関係と空間的依存関係を並列に効果的にキャプチャし、L字型畳み込み設計により受容界のカバレッジを最大化する。これらのコンポーネントをトレーニング後に最適化されたルックアップテーブルに変換することで、DnLUTは、CNNの競合であるDnCNNと比較して500KBのストレージと0.1%のエネルギー消費しか必要とせず、20倍高速な推論を実現している。
論文参考訳（メタデータ） (2025-03-20T08:15:29Z)
Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。 GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。 GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-21T18:56:19Z)
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文参考訳（メタデータ） (2024-11-25T07:56:13Z)
Highly Efficient and Unsupervised Framework for Moving Object Detection in Satellite Videos [0.2023650687546586]
本稿では,SVMODのための高度に効率的な非教師付きフレームワークを提案する。提案手法は,1024倍画像上で秒間9フレームを処理できるだけでなく,フォアグラウンド・アート・パフォーマンスも実現可能であることを示す。
論文参考訳（メタデータ） (2024-11-24T16:06:42Z)
Event-Stream Super Resolution using Sigma-Delta Neural Network [0.10923877073891444]
イベントカメラは、それらが収集するデータの低解像度で疎結合で非同期な性質のため、ユニークな課題を示す。現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていない。バイナリスパイクをSigma Delta Neural Networks(SDNNs)と統合する手法を提案する
論文参考訳（メタデータ） (2024-08-13T15:25:18Z)
VSSD: Vision Mamba with Non-Causal State Space Duality [26.96416515847115]
状態空間モデル(SSM)は、線形計算の複雑さを提供するため、視覚タスクにおいて注目されている。本稿では,VSSDの非因果形式であるVisual State Space Duality(VSSD)モデルを紹介する。我々は、VSSDが既存の最先端SSMモデルを上回る画像分類、検出、セグメンテーションを含む様々なベンチマークで広範な実験を行う。
論文参考訳（メタデータ） (2024-07-26T07:16:52Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
DVMSR: Distillated Vision Mamba for Efficient Super-Resolution [7.551130027327461]
本研究では,ビジョン・マンバと蒸留戦略を組み込んだ新しい軽量画像SRネットワークであるDVMSRを提案する。提案したDVMSRは,モデルパラメータの観点から,最先端の効率的なSR手法より優れている。
論文参考訳（メタデータ） (2024-05-05T17:34:38Z)
MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。 MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文参考訳（メタデータ） (2024-04-22T05:12:11Z)
EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文参考訳（メタデータ） (2024-03-15T02:48:47Z)
VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。 VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文参考訳（メタデータ） (2024-01-18T17:55:39Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文参考訳（メタデータ） (2022-11-19T17:09:50Z)
Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文参考訳（メタデータ） (2022-01-02T18:35:20Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。