Fugu-MT 論文翻訳(概要): Vivim: a Video Vision Mamba for Medical Video Object Segmentation

論文の概要: Vivim: a Video Vision Mamba for Medical Video Object Segmentation

arxiv url: http://arxiv.org/abs/2401.14168v3
Date: Tue, 12 Mar 2024 14:45:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 00:56:39.167160
Title: Vivim: a Video Vision Mamba for Medical Video Object Segmentation
Title（参考訳）: vivim:医療用ビデオオブジェクトセグメンテーションのためのビデオビジョンmamba
Authors: Yijun Yang, Zhaohu Xing, Chunwang Huang, Lei Zhu
Abstract要約: 本稿では、医療用ビデオオブジェクトセグメンテーションタスクのための一般的なビデオビジョン・マンバベースのフレームワークbftextVivimを提案する。我々のビビムは、設計したテンポラルマンバブロックにより、長期の時間的表現を様々なスケールのシーケンスに効果的に圧縮することができる。また,医用画像の曖昧な病変に対するビビムの識別能力を高めるための境界認識制約も導入した。
参考スコア（独自算出の注目度）: 12.408219091543295
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional convolutional neural networks have a limited receptive field while transformer-based networks are mediocre in constructing long-term dependency from the perspective of computational complexity. Such the bottleneck poses a significant challenge when processing long sequences in video analysis tasks. Very recently, the state space models (SSMs) with efficient hardware-aware designs, famous by Mamba, have exhibited impressive achievements in long sequence modeling, which facilitates the development of deep neural networks on many vision tasks. To better capture available dynamic cues in video frames, this paper presents a generic Video Vision Mamba-based framework, dubbed as \textbf{Vivim}, for medical video object segmentation tasks. Our Vivim can effectively compress the long-term spatiotemporal representation into sequences at varying scales by our designed Temporal Mamba Block. We also introduce a boundary-aware constraint to enhance the discriminative ability of Vivim on ambiguous lesions in medical images. Extensive experiments on thyroid segmentation in ultrasound videos and polyp segmentation in colonoscopy videos demonstrate the effectiveness and efficiency of our Vivim, superior to existing methods. The code is available at: https://github.com/scott-yjyang/Vivim.
Abstract（参考訳）: 従来の畳み込みニューラルネットワークは受容場が限られているが、トランスフォーマーベースのネットワークは計算複雑性の観点から長期的な依存関係を構築するのに中途半端である。このようなボトルネックは、ビデオ分析タスクで長いシーケンスを処理する場合に大きな課題となる。最近では、mambaで有名な効率的なハードウェアアウェアデザインのステートスペースモデル(ssm)が長いシーケンスモデリングで素晴らしい成果を上げており、多くの視覚タスクでディープニューラルネットワークの開発が容易になっている。ビデオフレームにおける利用可能な動的手がかりをよりよく捉えるために,本稿では,医療用ビデオオブジェクトセグメンテーションタスクのための汎用的なビデオビジョンmambaベースのフレームワークである \textbf{vivim} を提案する。我々のビビムは、設計したテンポラルマンバブロックにより、長期時空間表現を様々なスケールのシーケンスに効果的に圧縮することができる。また,医療画像中の曖昧な病変に対するvivimの識別能力を高めるために境界認識制約を導入する。大腸内視鏡ビデオにおける甲状腺分画とポリープ分画に関する広範囲な実験は,既存の方法よりも優れたvivimの有効性と有効性を示している。コードは、https://github.com/scott-yjyang/Vivim.comで入手できる。

関連論文リスト

MambaVesselNet++: A Hybrid CNN-Mamba Architecture for Medical Image Segmentation [21.20366935690067]
医用画像分割のためのハイブリッドCNN-MambaフレームワークであるMambaVesselNet++を提案する。 MambaVesselNet++は、ハイビジョンエンコーダ(Hi-Encoder)とバイフォーカスフュージョンデコーダ(BF-Decoder)で構成される。
論文参考訳（メタデータ） (2025-07-26T12:32:59Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
EndoMamba: An Efficient Foundation Model for Endoscopic Videos [2.747826950754128]
視覚ナビゲーションや外科的位相認識などの内視鏡的ビデオベースのタスクは、リアルタイムの補助を提供することで、最小侵襲の手術において重要な役割を果たす。近年のビデオ基礎モデルは有望なものとなっているが、その応用は、内視鏡の訓練のための限られたデータによる計算不効率と準最適性能によって妨げられている。これらの問題に対処するため,一般化表現を取り入れたリアルタイム推論のための基礎モデルであるEndoMambaを提案する。
論文参考訳（メタデータ） (2025-02-26T12:36:16Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba [20.435381963248787]
従来のディープラーニングに基づくr測定は主にCNNとTransformerに基づいている。本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。 PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
論文参考訳（メタデータ） (2024-09-18T14:48:50Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation [8.278068663433261]
本稿では,MambaアーキテクチャにインスパイアされたVison Mamba-UNetV2を提案する。 VM-UNetV2は、医用画像セグメンテーションタスクにおいて競合する性能を示す。我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。
論文参考訳（メタデータ） (2024-03-14T08:12:39Z)
U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation [10.083902382768406]
バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。ディープシークエンスモデルの新たなファミリーであるState Space Sequence Models (SSM) にインスパイアされ、我々はハイブリッドCNN-SSMブロックを設計する。我々は,CTおよびMR画像における腹部臓器の3次元分節化,内視鏡画像における計器の分節化,顕微鏡画像における細胞分節化の4つの課題について実験を行った。
論文参考訳（メタデータ） (2024-01-09T18:53:20Z)
Temporally Constrained Neural Networks (TCNN): A framework for semi-supervised video semantic segmentation [5.0754434714665715]
本稿では,手術ビデオのセマンティックセグメンテーションに使用される半教師付きフレームワークTCNNを紹介する。本研究では,オートエンコーダネットワークを用いて,空間的および時間的監視信号の両方を効率的に提供できることを示す。予測マスクの低次元表現を有効活用して,スパースラベル付き両方のデータセットに一貫した改善を実現することを実証した。
論文参考訳（メタデータ） (2021-12-27T18:06:12Z)
FetReg: Placental Vessel Segmentation and Registration in Fetoscopy Challenge Dataset [57.30136148318641]
Fetoscopy Laser Photocoagulation はツイン・ツー・ツイン・トランスフュージョン症候群(TTTS)の治療に広く用いられている治療法であるこれにより、プロシージャ時間と不完全アブレーションが増加し、持続的なTTTSが生じる可能性がある。コンピュータ支援による介入は、ビデオモザイクによって胎児の視野を広げ、船体ネットワークのより良い視覚化を提供することによって、これらの課題を克服するのに役立つかもしれない。本稿では,長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした,胎児環境のための汎用的でロバストなセマンティックセマンティックセグメンテーションとビデオモザイクアルゴリズムを開発するための大規模マルチセントデータセットを提案する。
論文参考訳（メタデータ） (2021-06-10T17:14:27Z)
Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文参考訳（メタデータ） (2021-01-06T18:56:24Z)
Multi-frame Feature Aggregation for Real-time Instrument Segmentation in Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文参考訳（メタデータ） (2020-11-17T16:27:27Z)
A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。エゴモーション記録シーケンスは重要な関連性を持つようになった。提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文参考訳（メタデータ） (2020-08-26T14:44:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。