論文の概要: V$^2$-SfMLearner: Learning Monocular Depth and Ego-motion for Multimodal Wireless Capsule Endoscopy
- arxiv url: http://arxiv.org/abs/2412.17595v1
- Date: Mon, 23 Dec 2024 14:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:52.430428
- Title: V$^2$-SfMLearner: Learning Monocular Depth and Ego-motion for Multimodal Wireless Capsule Endoscopy
- Title(参考訳): V$^2$-SfMLearner:マルチモーダルワイヤレスカプセル内視鏡における単眼深度とエゴモーションの学習
- Authors: Long Bai, Beilei Cui, Liangyu Wang, Yanheng Li, Shilong Yao, Sishen Yuan, Yanan Wu, Yang Zhang, Max Q. -H. Meng, Zhen Li, Weiping Ding, Hongliang Ren,
- Abstract要約: 深層学習は、カプセル内視鏡ビデオから深度マップとカプセルのエゴモーションを予測し、3Dシーンの再構築と病変の局所化を支援する。
既存のソリューションは、視覚ベースの処理にのみ焦点を合わせ、振動のような他の補助信号を無視している。
V$2$-SfMLearnerを提案する。これは、振動信号を視覚に基づく深度とカプセルの動き推定に組み込むマルチモーダルアプローチである。
- 参考スコア(独自算出の注目度): 37.63512910531616
- License:
- Abstract: Deep learning can predict depth maps and capsule ego-motion from capsule endoscopy videos, aiding in 3D scene reconstruction and lesion localization. However, the collisions of the capsule endoscopies within the gastrointestinal tract cause vibration perturbations in the training data. Existing solutions focus solely on vision-based processing, neglecting other auxiliary signals like vibrations that could reduce noise and improve performance. Therefore, we propose V$^2$-SfMLearner, a multimodal approach integrating vibration signals into vision-based depth and capsule motion estimation for monocular capsule endoscopy. We construct a multimodal capsule endoscopy dataset containing vibration and visual signals, and our artificial intelligence solution develops an unsupervised method using vision-vibration signals, effectively eliminating vibration perturbations through multimodal learning. Specifically, we carefully design a vibration network branch and a Fourier fusion module, to detect and mitigate vibration noises. The fusion framework is compatible with popular vision-only algorithms. Extensive validation on the multimodal dataset demonstrates superior performance and robustness against vision-only algorithms. Without the need for large external equipment, our V$^2$-SfMLearner has the potential for integration into clinical capsule robots, providing real-time and dependable digestive examination tools. The findings show promise for practical implementation in clinical settings, enhancing the diagnostic capabilities of doctors.
- Abstract(参考訳): 深層学習は、カプセル内視鏡ビデオから深度マップとカプセルのエゴモーションを予測し、3Dシーンの再構築と病変の局所化を支援する。
しかしながら、消化管内のカプセル内皮の衝突は、トレーニングデータに振動の摂動を引き起こす。
既存のソリューションは、視覚ベースの処理にのみ焦点を合わせ、ノイズを減らし性能を向上させる振動のような補助的な信号を無視している。
そこで本研究では,単分子カプセル内視鏡における振動信号の視深度とカプセルの動き推定に組み込むマルチモーダルアプローチであるV$^2$-SfMLearnerを提案する。
我々は,振動と視覚信号を含むマルチモーダルカプセル内視鏡データセットを構築し,視覚振動信号を用いた教師なし手法を開発し,マルチモーダル学習による振動摂動を効果的に除去する。
具体的には、振動ネットワーク分岐とフーリエ融合モジュールを慎重に設計し、振動音を検知・緩和する。
融合フレームワークは、一般的なビジョンのみのアルゴリズムと互換性がある。
マルチモーダルデータセットの大規模な検証は、視覚のみのアルゴリズムに対して優れた性能と堅牢性を示す。
我々のV$^2$-SfMLearnerは、大きな外部機器を必要とせずに、臨床カプセルロボットに統合される可能性があり、リアルタイムかつ信頼性の高い消化検査ツールを提供する。
本研究は,医師の診断能力を向上し,臨床現場での実践的実施を約束するものである。
関連論文リスト
- Vascular Segmentation of Functional Ultrasound Images using Deep Learning [0.0]
機能的超音波(fUS)画像のための,最初のディープラーニングベースセグメンテーションツールを紹介する。
競合セグメンテーション性能を90%の精度で達成し、71%の堅牢性と0.59のIUをfUSスタックから100フレームの時間フレームで実現した。
この研究は、ローカライゼーション顕微鏡に代わる非侵襲的で費用効果の高い代替手段を提供し、fUSデータの解釈を強化し、血管機能の理解を改善している。
論文 参考訳(メタデータ) (2024-10-28T09:00:28Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - AiAReSeg: Catheter Detection and Segmentation in Interventional
Ultrasound using Transformers [75.20925220246689]
血管内手術は、電離放射線を用いてカテーテルと血管を可視化するFluoroscopyの黄金標準を用いて行われる。
本研究では、最先端機械学習トランスフォーマアーキテクチャを応用して、軸干渉超音波画像シーケンス中のカテーテルを検出し、セグメント化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T19:34:12Z) - LLCaps: Learning to Illuminate Low-Light Capsule Endoscopy with Curved
Wavelet Attention and Reverse Diffusion [24.560417980602928]
ワイヤレスカプセル内視鏡(Wireless capsule endoscopy, WCE)は、消化器疾患の無痛・非侵襲診断ツールである。
医学領域における深層学習に基づく低照度画像強調(LLIE)は徐々に研究者を惹きつける。
マルチスケール畳み込みニューラルネットワーク(CNN)と逆拡散プロセスに基づく WCE LLIE フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-05T17:23:42Z) - Deep Learning for Ultrasound Beamforming [120.12255978513912]
受信した超音波エコーを空間画像領域にマッピングするビームフォーミングは、超音波画像形成チェーンの心臓に位置する。
現代の超音波イメージングは、強力なデジタル受信チャネル処理の革新に大きく依存している。
ディープラーニング手法は、デジタルビームフォーミングパイプラインにおいて魅力的な役割を果たす。
論文 参考訳(メタデータ) (2021-09-23T15:15:21Z) - Multi-Disease Detection in Retinal Imaging based on Ensembling
Heterogeneous Deep Learning Models [0.0]
網膜イメージングのための革新的なマルチディセーゼ検出パイプラインを提案する。
当社のパイプラインには、転送学習、クラス重み付け、リアルタイム画像増強、焦点損失利用などの最先端の戦略が含まれます。
論文 参考訳(メタデータ) (2021-03-26T18:02:17Z) - VC-Net: Deep Volume-Composition Networks for Segmentation and
Visualization of Highly Sparse and Noisy Image Data [13.805816310795256]
本稿では,3次元微小血管のロバスト抽出のためのエンドツーエンド深層学習手法VC-Netを提案する。
中心となる新規性は、ボリューム可視化技術(MIP)を自動利用して、3Dデータ探索を強化することである。
マルチストリーム畳み込みニューラルネットワークは、それぞれ3次元体積と2次元MIPの特徴を学習し、その相互依存性を結合体積-合成埋め込み空間で探索するために提案される。
論文 参考訳(メタデータ) (2020-09-14T04:15:02Z) - VR-Caps: A Virtual Environment for Capsule Endoscopy [8.499489366784374]
消化器疾患の診断と治療のための現在のカプセル内視鏡と次世代ロボットカプセルは、複雑なサイバー物理プラットフォームである。
データ駆動型アルゴリズムはカプセル内視鏡の多くの高度な機能を実現することを約束するが、現実のデータを得るのは難しい。
合成データを提供する物理的に現実的なシミュレーションが、データ駆動アルゴリズムの開発の解決策として登場した。
論文 参考訳(メタデータ) (2020-08-29T09:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。