Fugu-MT 論文翻訳(概要): Vivim: a Video Vision Mamba for Medical Video Segmentation

論文の概要: Vivim: a Video Vision Mamba for Medical Video Segmentation

arxiv url: http://arxiv.org/abs/2401.14168v4
Date: Thu, 1 Aug 2024 15:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-02 14:34:15.637288
Title: Vivim: a Video Vision Mamba for Medical Video Segmentation
Title（参考訳）: Vivim:医療用ビデオセグメンテーション用ビデオビジョンマンバ
Authors: Yijun Yang, Zhaohu Xing, Lequan Yu, Chunwang Huang, Huazhu Fu, Lei Zhu,
Abstract要約: 本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
参考スコア（独自算出の注目度）: 52.11785024350253
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medical video segmentation gains increasing attention in clinical practice due to the redundant dynamic references in video frames. However, traditional convolutional neural networks have a limited receptive field and transformer-based networks are mediocre in constructing long-term dependency from the perspective of computational complexity. This bottleneck poses a significant challenge when processing longer sequences in medical video analysis tasks using available devices with limited memory. Recently, state space models (SSMs), famous by Mamba, have exhibited impressive achievements in efficient long sequence modeling, which develops deep neural networks by expanding the receptive field on many vision tasks significantly. Unfortunately, vanilla SSMs failed to simultaneously capture causal temporal cues and preserve non-casual spatial information. To this end, this paper presents a Video Vision Mamba-based framework, dubbed as Vivim, for medical video segmentation tasks. Our Vivim can effectively compress the long-term spatiotemporal representation into sequences at varying scales with our designed Temporal Mamba Block. We also introduce an improved boundary-aware affine constraint across frames to enhance the discriminative ability of Vivim on ambiguous lesions. Extensive experiments on thyroid segmentation, breast lesion segmentation in ultrasound videos, and polyp segmentation in colonoscopy videos demonstrate the effectiveness and efficiency of our Vivim, superior to existing methods. The code is available at: https://github.com/scott-yjyang/Vivim. The dataset will be released once accepted.
Abstract（参考訳）: 医用ビデオセグメンテーションは、ビデオフレームの冗長なダイナミック参照により、臨床実践において注目を集める。しかし、従来の畳み込みニューラルネットワークは受容野が限られており、トランスフォーマーベースのネットワークは計算複雑性の観点から長期的な依存関係を構築するのに適している。このボトルネックは、限られたメモリを持つ利用可能なデバイスを使用して、医療ビデオ分析タスクの長いシーケンスを処理する場合、重大な課題となる。近年,マンバで有名な状態空間モデル (SSM) は,多くの視覚タスクにおいて受容場を著しく拡張し,ディープニューラルネットワークを発達させる,効率的な長周期モデリングにおいて顕著な成果を上げている。残念なことに、バニラSSMは因果側頭頂部を同時に捕捉し、非因果的空間情報を保存できなかった。そこで本研究では,医用ビデオセグメンテーションタスクのためのビデオビジョン・マンバベースのフレームワークであるVivimを提案する。我々のビビムは、設計したテンポラルマンバブロックを用いて、長期時空間表現を様々なスケールのシーケンスに効果的に圧縮することができる。また,不明瞭な病変に対するビビムの識別能力を高めるために,フレーム間の境界認識アフィン制約の改善も導入した。超音波画像における甲状腺分節,乳房病変分節,大腸内視鏡画像におけるポリープ分節の広範囲な実験により,既存の方法よりも優れたビビムの有効性と効率が示された。コードは、https://github.com/scott-yjyang/Vivim.comで入手できる。データセットは一度受け入れられるとリリースされます。

関連論文リスト

Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
EndoMamba: An Efficient Foundation Model for Endoscopic Videos [2.747826950754128]
視覚ナビゲーションや外科的位相認識などの内視鏡的ビデオベースのタスクは、リアルタイムの補助を提供することで、最小侵襲の手術において重要な役割を果たす。近年のビデオ基礎モデルは有望なものとなっているが、その応用は、内視鏡の訓練のための限られたデータによる計算不効率と準最適性能によって妨げられている。これらの問題に対処するため,一般化表現を取り入れたリアルタイム推論のための基礎モデルであるEndoMambaを提案する。
論文参考訳（メタデータ） (2025-02-26T12:36:16Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba [20.435381963248787]
従来のディープラーニングに基づくr測定は主にCNNとTransformerに基づいている。本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。 PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
論文参考訳（メタデータ） (2024-09-18T14:48:50Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation [8.278068663433261]
本稿では,MambaアーキテクチャにインスパイアされたVison Mamba-UNetV2を提案する。 VM-UNetV2は、医用画像セグメンテーションタスクにおいて競合する性能を示す。我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。
論文参考訳（メタデータ） (2024-03-14T08:12:39Z)
U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation [10.083902382768406]
バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。ディープシークエンスモデルの新たなファミリーであるState Space Sequence Models (SSM) にインスパイアされ、我々はハイブリッドCNN-SSMブロックを設計する。我々は,CTおよびMR画像における腹部臓器の3次元分節化,内視鏡画像における計器の分節化,顕微鏡画像における細胞分節化の4つの課題について実験を行った。
論文参考訳（メタデータ） (2024-01-09T18:53:20Z)
Temporally Constrained Neural Networks (TCNN): A framework for semi-supervised video semantic segmentation [5.0754434714665715]
本稿では,手術ビデオのセマンティックセグメンテーションに使用される半教師付きフレームワークTCNNを紹介する。本研究では,オートエンコーダネットワークを用いて,空間的および時間的監視信号の両方を効率的に提供できることを示す。予測マスクの低次元表現を有効活用して,スパースラベル付き両方のデータセットに一貫した改善を実現することを実証した。
論文参考訳（メタデータ） (2021-12-27T18:06:12Z)
FetReg: Placental Vessel Segmentation and Registration in Fetoscopy Challenge Dataset [57.30136148318641]
Fetoscopy Laser Photocoagulation はツイン・ツー・ツイン・トランスフュージョン症候群(TTTS)の治療に広く用いられている治療法であるこれにより、プロシージャ時間と不完全アブレーションが増加し、持続的なTTTSが生じる可能性がある。コンピュータ支援による介入は、ビデオモザイクによって胎児の視野を広げ、船体ネットワークのより良い視覚化を提供することによって、これらの課題を克服するのに役立つかもしれない。本稿では,長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした,胎児環境のための汎用的でロバストなセマンティックセマンティックセグメンテーションとビデオモザイクアルゴリズムを開発するための大規模マルチセントデータセットを提案する。
論文参考訳（メタデータ） (2021-06-10T17:14:27Z)
Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文参考訳（メタデータ） (2021-01-06T18:56:24Z)
Multi-frame Feature Aggregation for Real-time Instrument Segmentation in Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文参考訳（メタデータ） (2020-11-17T16:27:27Z)
A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。エゴモーション記録シーケンスは重要な関連性を持つようになった。提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文参考訳（メタデータ） (2020-08-26T14:44:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。