論文の概要: EndoMamba: An Efficient Foundation Model for Endoscopic Videos
- arxiv url: http://arxiv.org/abs/2502.19090v1
- Date: Wed, 26 Feb 2025 12:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:31.953820
- Title: EndoMamba: An Efficient Foundation Model for Endoscopic Videos
- Title(参考訳): EndoMamba: 内視鏡ビデオのための効率的な基礎モデル
- Authors: Qingyao Tian, Huai Liao, Xinyan Huang, Bingyu Yang, Dongdong Lei, Sebastien Ourselin, Hongbin Liu,
- Abstract要約: 視覚ナビゲーションや外科的位相認識などの内視鏡的ビデオベースのタスクは、リアルタイムの補助を提供することで、最小侵襲の手術において重要な役割を果たす。
近年のビデオ基礎モデルは有望なものとなっているが、その応用は、内視鏡の訓練のための限られたデータによる計算不効率と準最適性能によって妨げられている。
これらの問題に対処するため,一般化表現を取り入れたリアルタイム推論のための基礎モデルであるEndoMambaを提案する。
- 参考スコア(独自算出の注目度): 2.747826950754128
- License:
- Abstract: Endoscopic video-based tasks, such as visual navigation and surgical phase recognition, play a crucial role in minimally invasive surgeries by providing real-time assistance. While recent video foundation models have shown promise, their applications are hindered by (1) computational inefficiencies and (2) suboptimal performance caused by limited data for pre-training in endoscopy. To address these issues, we present EndoMamba, a foundation model designed for real-time inference while learning generalized spatiotemporal representations. First, to mitigate computational inefficiencies, we propose the EndoMamba backbone, optimized for real-time inference. Inspired by recent advancements in state space models, EndoMamba integrates Bidirectional Mamba blocks for spatial modeling within individual frames and vanilla Mamba blocks for past-to-present reasoning across the temporal domain. This design enables both strong spatiotemporal modeling and efficient inference in online video streams. Second, we propose a self-supervised hierarchical pre-training diagram to enhance EndoMamba's representation learning using endoscopic videos and incorporating general video domain knowledge. Specifically, our approach combines masked reconstruction with auxiliary supervision, leveraging low-level reconstruction to capture spatial-temporal structures and high-level alignment to transfer broader knowledge from a pretrained general-video domain foundation model. Extensive experiments on four downstream tasks--classification, segmentation, surgical phase recognition, and localization--demonstrate that EndoMamba outperforms existing foundation models and task-specific methods while maintaining real-time inference speed. The source code will be released upon acceptance.
- Abstract(参考訳): 視覚ナビゲーションや外科的位相認識などの内視鏡的ビデオベースのタスクは、リアルタイムの補助を提供することで、最小侵襲の手術において重要な役割を果たす。
近年のビデオファンデーションモデルは将来性を示しているが、その応用は(1)計算の非効率性、(2)内視鏡における事前トレーニングのための限られたデータによって引き起こされる準最適性能によって妨げられている。
これらの問題に対処するために,一般化時空間表現を学習しながら,リアルタイム推論用に設計された基盤モデルであるEndoMambaを提案する。
まず,実時間推論に最適化されたEndoMambaバックボーンを提案する。
状態空間モデルの最近の進歩にインスパイアされたEndoMambaは、個々のフレーム内の空間モデリングのための双方向マンバブロックと、時間領域全体にわたる過去から現在までの推論のためのバニラマンバブロックを統合している。
この設計は、オンラインビデオストリームにおける強力な時空間モデリングと効率的な推論の両方を可能にする。
次に,エンドマンバの自己教師型階層型事前学習図を提案し,内視鏡的ビデオを用いた表現学習を強化し,一般的なビデオ領域の知識を取り入れた。
具体的には,マスク付き再構成と補助的監視を併用し,空間的時間構造を捉えた低レベル再構成と,事前訓練された汎用ビデオドメイン基盤モデルからより広い知識を伝達する高レベルアライメントを利用する。
エンドマンバは、リアルタイム推論速度を維持しながら、既存の基礎モデルやタスク固有の手法より優れていることを実証する。
ソースコードは受理時に公開される。
関連論文リスト
- STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - ECMamba: Consolidating Selective State Space Model with Retinex Guidance for Efficient Multiple Exposure Correction [48.77198487543991]
本稿では,反射率と照明マップの復元を目的とした,二重経路を持つ露出補正のためのMamba(ECMamba)に基づく新しいフレームワークを提案する。
具体的には、Retinex理論を導出し、入力を2つの中間空間にマッピングできるRetinex推定器を訓練する。
我々は、ECMMのコア演算子として、Retinex情報(Retinex-SS2D)で案内される新しい2次元選択状態空間層を開発する。
論文 参考訳(メタデータ) (2024-10-28T21:02:46Z) - Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。
このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T14:10:33Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - SR-Mamba: Effective Surgical Phase Recognition with State Space Model [42.766718651973726]
SR-マンバ(SR-Mamba)は、外科的位相認識の課題を満たすために特別に設計された、新しい無注意モデルである。
SR-Mambaでは、双方向のMambaデコーダを用いて、時間的コンテキストをオーバーロングシーケンスで効果的にモデル化する。
SR-Mambaは、Colec80とCATARACTS Challengeデータセットで最先端のパフォーマンスを示すことによって、外科的ビデオ分析の新たなベンチマークを確立する。
論文 参考訳(メタデータ) (2024-07-11T09:34:31Z) - Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。
我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。
超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal
Consistency to Frame-Based Domain Translation Approaches [3.7873597471903944]
本稿では,個別のフレームベースアプローチに時間的整合性を加えるための,可変時間パラメータRT-GANを用いた軽量な解を提案する。
大腸内視鏡検査における2症例に対するアプローチの有効性について検討した。
論文 参考訳(メタデータ) (2023-10-02T03:13:26Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。