論文の概要: MambaFlow: A Mamba-Centric Architecture for End-to-End Optical Flow Estimation
- arxiv url: http://arxiv.org/abs/2503.07046v3
- Date: Mon, 11 Aug 2025 07:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.213999
- Title: MambaFlow: A Mamba-Centric Architecture for End-to-End Optical Flow Estimation
- Title(参考訳): MambaFlow: エンドツーエンドの光フロー推定のためのMamba-Centric Architecture
- Authors: Juntian Du, Yuan Sun, Zhihu Zhou, Pinyi Chen, Runzhe Zhang, Keji Mao,
- Abstract要約: MambaFlowは,Mambaアーキテクチャの高精度かつ効率性を生かして,局所的に相関する特徴を抽出する新しいフレームワークである。
MambaFlowはSintelベンチマークで高い精度を実現し、リソース制約のあるデバイスへの現実的なデプロイの可能性を強く示している。
- 参考スコア(独自算出の注目度): 1.5828557827183316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the Mamba architecture has demonstrated significant successes in various computer vision tasks, such as classification and segmentation. However, its application to optical flow estimation remains unexplored. In this paper, we introduce MambaFlow, a novel framework designed to leverage the high accuracy and efficiency of the Mamba architecture for capturing locally correlated features while preserving global information in end-to-end optical flow estimation. To our knowledge, MambaFlow is the first architecture centered around the Mamba design tailored specifically for optical flow estimation. It comprises two key components: (1) PolyMamba, which enhances feature representation through a dual-Mamba architecture, incorporating a Self-Mamba module for intra-token modeling and a Cross-Mamba module for inter-modality interaction, enabling both deep contextualization and effective feature fusion; and (2) PulseMamba, which leverages an Attention Guidance Aggregator (AGA) to adaptively integrate features with dynamically learned weights in contrast to naive concatenation, and then employs the intrinsic recurrent mechanism of Mamba to perform autoregressive flow decoding, facilitating efficient flow information dissemination. Extensive experiments demonstrate that MambaFlow achieves remarkable results comparable to mainstream methods on benchmark datasets. Compared to SEA-RAFT, MambaFlow attains higher accuracy on the Sintel benchmark, demonstrating stronger potential for real-world deployment on resource-constrained devices. The source code will be made publicly available upon acceptance of the paper.
- Abstract(参考訳): 近年、Mambaアーキテクチャは、分類やセグメンテーションなど、様々なコンピュータビジョンタスクにおいて大きな成功を収めている。
しかし、光学フロー推定へのその応用はいまだ解明されていない。
本稿では,MambaFlowについて紹介する。MambaFlowは,局所的に相関する特徴を捉えつつ,エンドツーエンドの光学的フロー推定におけるグローバル情報を保存するために,Mambaアーキテクチャの高精度かつ効率性を生かした新しいフレームワークである。
私たちの知る限り、MambaFlowは光フロー推定に特化したMamba設計を中心とした最初のアーキテクチャです。
本研究は,(1)多目的マンバアーキテクチャによる特徴表現を強化するポリマンバ(PolyMamba)と,(2)自己回帰的フロー復号化(autoregressive flow decoding)を行うために,自己回帰的フロー復号化(autoregressive flow decoding)を行うための,自己回帰的フロー復号化(autoregressive flow decoding)を行うための,自己回帰的フロー復号化(autoregressive flow decoding)を実現するための,深い文脈化と効果的な特徴融合の両立を可能にするクロスマンバモジュール(Cross-Mamba Module)と,(2)注意誘導凝集器(AGA)を利用するPulseseMamba(PulseMamba)の2つの主要コンポーネントから構成される。
大規模な実験により、MambaFlowはベンチマークデータセットの主流メソッドに匹敵する顕著な結果が得られた。
SEA-RAFTと比較すると、MambaFlowはSintelベンチマークで高い精度を実現しており、リソース制約のあるデバイス上での現実的なデプロイの可能性を強く示している。
ソースコードは、論文の受理時に公開されます。
関連論文リスト
- TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - MambaGlue: Fast and Robust Local Feature Matching With Mamba [9.397265252815115]
そこで我々は,MambaGlueと呼ばれる,新しいMambaベースの局所特徴マッチング手法を提案する。
Mambaは最先端のアーキテクチャであり、トレーニングと推論の両方において、優れたスピードで急速に認識されるようになった。
私たちのMambaGlueは、実世界のアプリケーションにおける堅牢性と効率のバランスを達成します。
論文 参考訳(メタデータ) (2025-02-01T15:43:03Z) - FlowMamba: Learning Point Cloud Scene Flow with Global Motion Propagation [14.293476753863272]
本研究では,フローマンバという,グローバルな動き伝搬を伴うシーンフロー推定ネットワークを提案する。
FlowMambaはFlyingThings3DおよびKITTIデータセットにおいてミリレベルの予測精度を実現する最初の方法である。
論文 参考訳(メタデータ) (2024-12-23T08:03:59Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MamKPD: A Simple Mamba Baseline for Real-Time 2D Keypoint Detection [13.678314551293113]
MamKPDは、2次元キーポイント検出のための最初の効率的かつ効果的なマンバベースのポーズ推定フレームワークである。
すべてのパッチのグローバルモデリングにMambaを組み合わせることで、MamKPDはインスタンスのポーズ情報を効果的に抽出する。
我々のMamKPD-Lは、NVIDIA GTX 4090 GPU上で1492 FPSのCOCOデータセットで77.3%APを達成した。
論文 参考訳(メタデータ) (2024-12-02T12:03:32Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - Mamba for Scalable and Efficient Personalized Recommendations [0.135975510645475]
本稿では,FT-Transformer アーキテクチャにおいて,Transformer 層を Mamba 層に置き換える新しいハイブリッドモデルを提案する。
FT-Mambaを従来のTransformerベースモデルと比較し,3つのデータセット上でのTwo-Towerアーキテクチャについて検討した。
論文 参考訳(メタデータ) (2024-09-11T14:26:14Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。