論文の概要: EndoMatcher: Generalizable Endoscopic Image Matcher via Multi-Domain Pre-training for Robot-Assisted Surgery
- arxiv url: http://arxiv.org/abs/2508.05205v1
- Date: Thu, 07 Aug 2025 09:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.677
- Title: EndoMatcher: Generalizable Endoscopic Image Matcher via Multi-Domain Pre-training for Robot-Assisted Surgery
- Title(参考訳): EndoMatcher: ロボット支援手術のためのマルチドメインプレトレーニングによる一般的な内視鏡画像マッチング
- Authors: Bingyu Yang, Qingyao Tian, Yimeng Geng, Huai Liao, Xinyan Huang, Jiebo Luo, Hongbin Liu,
- Abstract要約: 内視鏡画像における一般化可能な高密度特徴マッチングはロボット支援作業に不可欠である。
本研究では,大規模なマルチドメインデータ事前学習による内視鏡画像マッチングシステムであるEndoMatcherを提案する。
内視鏡的マッチングのための最初のマルチドメインデータセットであるEndo-Mix6を構築した。
- 参考スコア(独自算出の注目度): 40.205276575209695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable dense feature matching in endoscopic images is crucial for robot-assisted tasks, including 3D reconstruction, navigation, and surgical scene understanding. Yet, it remains a challenge due to difficult visual conditions (e.g., weak textures, large viewpoint variations) and a scarcity of annotated data. To address these challenges, we propose EndoMatcher, a generalizable endoscopic image matcher via large-scale, multi-domain data pre-training. To address difficult visual conditions, EndoMatcher employs a two-branch Vision Transformer to extract multi-scale features, enhanced by dual interaction blocks for robust correspondence learning. To overcome data scarcity and improve domain diversity, we construct Endo-Mix6, the first multi-domain dataset for endoscopic matching. Endo-Mix6 consists of approximately 1.2M real and synthetic image pairs across six domains, with correspondence labels generated using Structure-from-Motion and simulated transformations. The diversity and scale of Endo-Mix6 introduce new challenges in training stability due to significant variations in dataset sizes, distribution shifts, and error imbalance. To address them, a progressive multi-objective training strategy is employed to promote balanced learning and improve representation quality across domains. This enables EndoMatcher to generalize across unseen organs and imaging conditions in a zero-shot fashion. Extensive zero-shot matching experiments demonstrate that EndoMatcher increases the number of inlier matches by 140.69% and 201.43% on the Hamlyn and Bladder datasets over state-of-the-art methods, respectively, and improves the Matching Direction Prediction Accuracy (MDPA) by 9.40% on the Gastro-Matching dataset, achieving dense and accurate matching under challenging endoscopic conditions. The code is publicly available at https://github.com/Beryl2000/EndoMatcher.
- Abstract(参考訳): 内視鏡画像における一般化可能な特徴マッチングは,3次元再構成,ナビゲーション,手術シーン理解などのロボット支援作業に不可欠である。
しかし、難しい視覚条件(例えば、弱いテクスチャ、大きな視点の変化)と注釈付きデータの不足のため、依然として課題である。
これらの課題に対処するために,大規模なマルチドメインデータの事前学習を通じて,一般化可能な内視鏡画像マーカであるEndoMatcherを提案する。
難易度の高い視覚条件に対処するため、EndoMatcherは2分岐の視覚変換器を使用してマルチスケールの特徴を抽出し、頑健な対応学習のための二重相互作用ブロックによって強化した。
データ不足を克服し、ドメインの多様性を向上させるために、内視鏡的マッチングのための最初のマルチドメインデータセットであるEndo-Mix6を構築した。
Endo-Mix6は6つの領域にわたる約1.2Mの実画像対と合成画像対で構成され、Structure-from-Motionとシミュレートされた変換を用いて対応ラベルを生成する。
Endo-Mix6の多様性とスケールは、データセットのサイズ、分散シフト、エラーの不均衡など、トレーニングの安定性に新たな課題をもたらす。
これらの課題に対処するために、バランスの取れた学習を促進し、ドメイン間の表現品質を向上させるために、プログレッシブな多目的学習戦略が採用されている。
これにより、EndoMatcherは目に見えない臓器や画像の状態をゼロショットで一般化することができる。
広範囲にわたるゼロショットマッチング実験により、EndoMatcherはハムリンとブラダーのデータセットに対してそれぞれ140.69%、201.43%の不整合を増加させ、ガストロ・マーチングデータセットにおいてマッチング方向予測精度(MDPA)を9.40%改善し、難解な内視鏡的条件下で密かつ正確なマッチングを達成している。
コードはhttps://github.com/Beryl2000/EndoMatcher.comで公開されている。
関連論文リスト
- MapGlue: Multimodal Remote Sensing Image Matching [12.376931699274062]
マルチモーダルリモートセンシング画像(MRSI)マッチングは、クロスモーダル融合、ローカライゼーション、オブジェクト検出において重要である。
既存のユニモーダルデータセットにはスケールと多様性がなく、ディープラーニングソリューションに制限がある。
本稿では,汎用MRSIマッチングフレームワークであるMapGlueと,これらのギャップに対処する大規模マルチモーダルデータセットであるMapDataを提案する。
論文 参考訳(メタデータ) (2025-03-20T14:36:16Z) - DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles [19.096747443000194]
本研究では,テキスト・ツー・テキスト・トゥ・テキストと画像・ツー・テキスト・トゥ・画像という2つのマルチモーダル・サイクルを統合したDoraCycleを提案する。
モデルは、両方のエンドポイントが同じモダリティを共有するサイクルエンドポイントで計算されるクロスエントロピー損失によって最適化される。
特定のアイデンティティのような新しいペアの知識を含むタスクでは、小さなペアのイメージテキスト例と大規模な未ペアデータの組み合わせが十分である。
論文 参考訳(メタデータ) (2025-03-05T16:26:58Z) - MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。
本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。
我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文 参考訳(メタデータ) (2025-01-13T18:37:36Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Exposure Bracketing Is All You Need For A High-Quality Image [50.822601495422916]
マルチ露光画像は、デノイング、デブロアリング、高ダイナミックレンジイメージング、超解像において相補的である。
本研究では,これらの課題を組み合わせ,高品質な画像を得るために露光ブラケット写真を活用することを提案する。
特に時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Multi-Level Global Context Cross Consistency Model for Semi-Supervised
Ultrasound Image Segmentation with Diffusion Model [0.0]
本研究では,Latent Diffusion Model (LDM) によって生成された画像を,半教師付き学習のためのラベル付き画像として利用するフレームワークを提案する。
提案手法により,確率分布の知識をセグメント化ネットワークに効果的に伝達することが可能となり,セグメント化精度が向上する。
論文 参考訳(メタデータ) (2023-05-16T14:08:24Z) - Cross-modal tumor segmentation using generative blending augmentation and self training [1.6440045168835438]
本稿では,新しいデータ拡張手法によって強化された従来の画像合成に基づくクロスモーダルセグメンテーション手法を提案する。
Generative Blending Augmentation (GBA)は、単一のトレーニング画像から代表的生成特徴を学習し、腫瘍の外観を現実的に多様化させる。
提案手法は,MICCAI CrossMoDA 2022 チャレンジの検証および試験段階において,前庭神経ショーノマ(VS)セグメンテーションにおいて第1位となった。
論文 参考訳(メタデータ) (2023-04-04T11:01:46Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - An Unpaired Cross-modality Segmentation Framework Using Data
Augmentation and Hybrid Convolutional Networks for Segmenting Vestibular
Schwannoma and Cochlea [7.7150383247700605]
CrossMoDAの課題は、未ラベル高分解能T2スキャンで前庭神経癌(VS)腫瘍とコチェリー領域を自動的に分離することである。
2022年版では、セグメンテーションタスクを多施設スキャンで拡張している。
本稿では,データ拡張とハイブリッド畳み込みネットワークを用いた非対向型クロスモーダルセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T01:15:33Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Unsupervised Cross-Modality Domain Adaptation for Segmenting Vestibular
Schwannoma and Cochlea with Data Augmentation and Model Ensemble [4.942327155020771]
本稿では,前庭神経新生と子牛を識別する教師なし学習フレームワークを提案する。
本フレームワークは,T1強調MRI(ceT1-w)とそのラベルからの情報を活用し,対象領域にラベルが存在しないT2強調MRIのセグメンテーションを生成する。
提案手法は,VS と cochlea のそれぞれの平均値 0.7930 と 0.7432 で,有望なセグメンテーションの構築と生成が容易である。
論文 参考訳(メタデータ) (2021-09-24T20:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。