論文の概要: Vivim: a Video Vision Mamba for Medical Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2401.14168v2
- Date: Wed, 7 Feb 2024 09:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:10:38.517633
- Title: Vivim: a Video Vision Mamba for Medical Video Object Segmentation
- Title(参考訳): vivim:医療用ビデオオブジェクトセグメンテーションのためのビデオビジョンmamba
- Authors: Yijun Yang, Zhaohu Xing, Lei Zhu
- Abstract要約: 本稿では,Vivimという医療用ビデオオブジェクトセグメンテーションタスクのための一般的なVideo Vision Mambaベースのフレームワークを提案する。
我々のVivimは、設計したテンポラルマンバブロックにより、時間的長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。既存のビデオレベルトランスフォーマー方式と比較して、より高速な性能で優れたセグメンテーション結果を維持する。
- 参考スコア(独自算出の注目度): 13.740972385890977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional convolutional neural networks have a limited receptive field
while transformer-based networks are mediocre in constructing long-term
dependency from the perspective of computational complexity. Such the
bottleneck poses a significant challenge when processing long video sequences
in video analysis tasks. Very recently, the state space models (SSMs) with
efficient hardware-aware designs, famous by Mamba, have exhibited impressive
achievements in long sequence modeling, which facilitates the development of
deep neural networks on many vision tasks. To better capture available cues in
video frames, this paper presents a generic Video Vision Mamba-based framework
for medical video object segmentation tasks, named Vivim. Our Vivim can
effectively compress the long-term spatiotemporal representation into sequences
at varying scales by our designed Temporal Mamba Block. Compared to existing
video-level Transformer-based methods, our model maintains excellent
segmentation results with better speed performance. Extensive experiments on
breast lesion segmentation in ultrasound videos and polyp segmentation in
colonoscopy videos demonstrate the effectiveness and efficiency of our Vivim.
The code is available at: https://github.com/scott-yjyang/Vivim.
- Abstract(参考訳): 従来の畳み込みニューラルネットワークは受容場が限られているが、トランスフォーマーベースのネットワークは計算複雑性の観点から長期的な依存関係を構築するのに中途半端である。
このようなボトルネックは、ビデオ分析タスクで長いビデオシーケンスを処理する場合に大きな課題となる。
最近では、mambaで有名な効率的なハードウェアアウェアデザインのステートスペースモデル(ssm)が長いシーケンスモデリングで素晴らしい成果を上げており、多くの視覚タスクでディープニューラルネットワークの開発が容易になっている。
ビデオフレームにおける利用可能なヒントをよりよく捉えるため,本稿ではvivimという医療用ビデオオブジェクトセグメンテーションタスクのための汎用的なビデオビジョンmambaベースのフレームワークを提案する。
我々のビビムは、設計したテンポラルマンバブロックにより、長期時空間表現を様々なスケールのシーケンスに効果的に圧縮することができる。
既存のビデオレベルのトランスフォーマー方式と比較すると, 高速性能に優れたセグメンテーション性能を維持している。
大腸内視鏡ビデオにおける超音波映像における乳腺病変分画とポリープ分画の広範な実験により,vivimの有用性と有効性が示された。
コードは、https://github.com/scott-yjyang/Vivim.comで入手できる。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba [20.435381963248787]
従来のディープラーニングに基づくr測定は主にCNNとTransformerに基づいている。
本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。
PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
論文 参考訳(メタデータ) (2024-09-18T14:48:50Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation [8.278068663433261]
本稿では,MambaアーキテクチャにインスパイアされたVison Mamba-UNetV2を提案する。
VM-UNetV2は、医用画像セグメンテーションタスクにおいて競合する性能を示す。
我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-03-14T08:12:39Z) - U-Mamba: Enhancing Long-range Dependency for Biomedical Image
Segmentation [10.083902382768406]
バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。
ディープシークエンスモデルの新たなファミリーであるState Space Sequence Models (SSM) にインスパイアされ、我々はハイブリッドCNN-SSMブロックを設計する。
我々は,CTおよびMR画像における腹部臓器の3次元分節化,内視鏡画像における計器の分節化,顕微鏡画像における細胞分節化の4つの課題について実験を行った。
論文 参考訳(メタデータ) (2024-01-09T18:53:20Z) - Temporally Constrained Neural Networks (TCNN): A framework for
semi-supervised video semantic segmentation [5.0754434714665715]
本稿では,手術ビデオのセマンティックセグメンテーションに使用される半教師付きフレームワークTCNNを紹介する。
本研究では,オートエンコーダネットワークを用いて,空間的および時間的監視信号の両方を効率的に提供できることを示す。
予測マスクの低次元表現を有効活用して,スパースラベル付き両方のデータセットに一貫した改善を実現することを実証した。
論文 参考訳(メタデータ) (2021-12-27T18:06:12Z) - FetReg: Placental Vessel Segmentation and Registration in Fetoscopy
Challenge Dataset [57.30136148318641]
Fetoscopy Laser Photocoagulation はツイン・ツー・ツイン・トランスフュージョン症候群(TTTS)の治療に広く用いられている治療法である
これにより、プロシージャ時間と不完全アブレーションが増加し、持続的なTTTSが生じる可能性がある。
コンピュータ支援による介入は、ビデオモザイクによって胎児の視野を広げ、船体ネットワークのより良い視覚化を提供することによって、これらの課題を克服するのに役立つかもしれない。
本稿では,長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした,胎児環境のための汎用的でロバストなセマンティックセマンティックセグメンテーションとビデオモザイクアルゴリズムを開発するための大規模マルチセントデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:14:27Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Multi-frame Feature Aggregation for Real-time Instrument Segmentation in
Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。
また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文 参考訳(メタデータ) (2020-11-17T16:27:27Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。