論文の概要: Vivim: a Video Vision Mamba for Medical Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2401.14168v3
- Date: Tue, 12 Mar 2024 14:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:56:39.167160
- Title: Vivim: a Video Vision Mamba for Medical Video Object Segmentation
- Title(参考訳): vivim:医療用ビデオオブジェクトセグメンテーションのためのビデオビジョンmamba
- Authors: Yijun Yang, Zhaohu Xing, Chunwang Huang, Lei Zhu
- Abstract要約: 本稿では、医療用ビデオオブジェクトセグメンテーションタスクのための一般的なビデオビジョン・マンバベースのフレームワークbftextVivimを提案する。
我々のビビムは、設計したテンポラルマンバブロックにより、長期の時間的表現を様々なスケールのシーケンスに効果的に圧縮することができる。
また,医用画像の曖昧な病変に対するビビムの識別能力を高めるための境界認識制約も導入した。
- 参考スコア(独自算出の注目度): 12.408219091543295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional convolutional neural networks have a limited receptive field
while transformer-based networks are mediocre in constructing long-term
dependency from the perspective of computational complexity. Such the
bottleneck poses a significant challenge when processing long sequences in
video analysis tasks. Very recently, the state space models (SSMs) with
efficient hardware-aware designs, famous by Mamba, have exhibited impressive
achievements in long sequence modeling, which facilitates the development of
deep neural networks on many vision tasks. To better capture available dynamic
cues in video frames, this paper presents a generic Video Vision Mamba-based
framework, dubbed as \textbf{Vivim}, for medical video object segmentation
tasks. Our Vivim can effectively compress the long-term spatiotemporal
representation into sequences at varying scales by our designed Temporal Mamba
Block. We also introduce a boundary-aware constraint to enhance the
discriminative ability of Vivim on ambiguous lesions in medical images.
Extensive experiments on thyroid segmentation in ultrasound videos and polyp
segmentation in colonoscopy videos demonstrate the effectiveness and efficiency
of our Vivim, superior to existing methods. The code is available at:
https://github.com/scott-yjyang/Vivim.
- Abstract(参考訳): 従来の畳み込みニューラルネットワークは受容場が限られているが、トランスフォーマーベースのネットワークは計算複雑性の観点から長期的な依存関係を構築するのに中途半端である。
このようなボトルネックは、ビデオ分析タスクで長いシーケンスを処理する場合に大きな課題となる。
最近では、mambaで有名な効率的なハードウェアアウェアデザインのステートスペースモデル(ssm)が長いシーケンスモデリングで素晴らしい成果を上げており、多くの視覚タスクでディープニューラルネットワークの開発が容易になっている。
ビデオフレームにおける利用可能な動的手がかりをよりよく捉えるために,本稿では,医療用ビデオオブジェクトセグメンテーションタスクのための汎用的なビデオビジョンmambaベースのフレームワークである \textbf{vivim} を提案する。
我々のビビムは、設計したテンポラルマンバブロックにより、長期時空間表現を様々なスケールのシーケンスに効果的に圧縮することができる。
また,医療画像中の曖昧な病変に対するvivimの識別能力を高めるために境界認識制約を導入する。
大腸内視鏡ビデオにおける甲状腺分画とポリープ分画に関する広範囲な実験は,既存の方法よりも優れたvivimの有効性と有効性を示している。
コードは、https://github.com/scott-yjyang/Vivim.comで入手できる。
関連論文リスト
- VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation [8.278068663433261]
本稿では,MambaアーキテクチャにインスパイアされたVison Mamba-UNetV2を提案する。
VM-UNetV2は、医用画像セグメンテーションタスクにおいて競合する性能を示す。
我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-03-14T08:12:39Z) - VideoMamba: State Space Model for Efficient Video Understanding [46.17083617091239]
VideoMambaは既存の3D畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、効率的な長期モデリングを可能にする。
VideoMambaはビデオ理解のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-03-11T17:59:34Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - U-Mamba: Enhancing Long-range Dependency for Biomedical Image
Segmentation [10.083902382768406]
バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。
ディープシークエンスモデルの新たなファミリーであるState Space Sequence Models (SSM) にインスパイアされ、我々はハイブリッドCNN-SSMブロックを設計する。
我々は,CTおよびMR画像における腹部臓器の3次元分節化,内視鏡画像における計器の分節化,顕微鏡画像における細胞分節化の4つの課題について実験を行った。
論文 参考訳(メタデータ) (2024-01-09T18:53:20Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。