論文の概要: Endo-FASt3r: Endoscopic Foundation model Adaptation for Structure from motion
- arxiv url: http://arxiv.org/abs/2503.07204v1
- Date: Mon, 10 Mar 2025 11:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:51.348916
- Title: Endo-FASt3r: Endoscopic Foundation model Adaptation for Structure from motion
- Title(参考訳): Endo-FASt3r: 運動構造に対する内視鏡的基礎モデル適応
- Authors: Mona Sheikh Zeinoddin, Mobarakol Islam, Zafer Tandogdu, Greg Shaw, Mathew J. Clarkson, Evangelos Mazomenos, Danail Stoyanov,
- Abstract要約: Endo-FASt3rは、両方のタスクに基礎モデルを使用する最初の単眼SSL深度とポーズ推定フレームワークである。
また、高階更新と高速収束を実現する新しい適応手法であるDoMoRAを提案する。
- 参考スコア(独自算出の注目度): 11.143841257894579
- License:
- Abstract: Accurate depth and camera pose estimation is essential for achieving high-quality 3D visualisations in robotic-assisted surgery. Despite recent advancements in foundation model adaptation to monocular depth estimation of endoscopic scenes via self-supervised learning (SSL), no prior work has explored their use for pose estimation. These methods rely on low rank-based adaptation approaches, which constrain model updates to a low-rank space. We propose Endo-FASt3r, the first monocular SSL depth and pose estimation framework that uses foundation models for both tasks. We extend the Reloc3r relative pose estimation foundation model by designing Reloc3rX, introducing modifications necessary for convergence in SSL. We also present DoMoRA, a novel adaptation technique that enables higher-rank updates and faster convergence. Experiments on the SCARED dataset show that Endo-FASt3r achieves a substantial $10\%$ improvement in pose estimation and a $2\%$ improvement in depth estimation over prior work. Similar performance gains on the Hamlyn and StereoMIS datasets reinforce the generalisability of Endo-FASt3r across different datasets.
- Abstract(参考訳): ロボット支援手術における高品質な3D視覚化を実現するためには,正確な深度とカメラポーズ推定が不可欠である。
近年, 自己教師付き学習(SSL)による単眼的深度推定への基礎モデルの適用が進んでいるが, ポーズ推定に使用するための先行研究は行われていない。
これらの手法は、低ランク空間へのモデル更新を制約する低ランク適応アプローチに依存している。
両タスクに基礎モデルを用いた最初の単眼SSL深度とポーズ推定フレームワークであるEndo-FASt3rを提案する。
我々は、Reloc3rXを設計し、SSLの収束に必要な修正を導入することで、Reloc3rの相対ポーズ推定基盤モデルを拡張した。
また、高階更新と高速収束を実現する新しい適応手法であるDoMoRAを提案する。
SCAREDデータセットの実験によると、Edo-FASt3rは、ポーズ推定の実質的な10\%$改善と、事前の作業よりも深さ推定の2\%$改善を実現している。
HamlynとStereoMISデータセットの同様のパフォーマンス向上は、異なるデータセット間でのEndo-FASt3rの一般性を強化している。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Domain Adaptive 3D Pose Augmentation for In-the-wild Human Mesh Recovery [32.73513554145019]
Domain Adaptive 3D Pose Augmentation (DAPA)は、Wildのシナリオにおけるモデルの一般化能力を向上するデータ拡張手法である。
DAPAによる微調整が3DPWとAGORAのベンチマークの結果を効果的に改善できることを定量的に示す。
論文 参考訳(メタデータ) (2022-06-21T15:02:31Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - Distribution-Aware Single-Stage Models for Multi-Person 3D Pose
Estimation [29.430404703883084]
本稿では,多人数の3Dポーズ推定問題に対処する新しいDASモデルを提案する。
提案するDASモデルでは,3次元カメラ空間における人物位置と人体関節をワンパスで同時に位置決めする。
CMU Panoptic と MuPoTS-3D のベンチマークに関する総合的な実験は、提案したDASモデルの優れた効率を実証している。
論文 参考訳(メタデータ) (2022-03-15T07:30:27Z) - Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze
Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。
マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文 参考訳(メタデータ) (2022-01-20T00:29:45Z) - Iterative Optimisation with an Innovation CNN for Pose Refinement [17.752556490937092]
本研究では,オブジェクトのポーズ推定を改良する手法として,Innovation CNNを提案する。
Innovation CNNを勾配降下フレームワークに反復的に適用することにより、初期ポーズ推定を段階的に改善する。
提案手法は,人気のLINEMODおよびOcclusion LINEMODデータセット上で評価し,両データセットの最先端性能を得る。
論文 参考訳(メタデータ) (2021-01-22T00:12:12Z) - Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation [97.93687743378106]
既存の3Dポーズ推定モデルは、目に見えないポーズを持つ新しいシナリオに適用する場合、パフォーマンス低下を被る。
本稿では、3次元ポーズモデルの一般化性を改善するための新しいフレームワークである推論段階最適化(ISO)を提案する。
注目すべきは、MPI-INF-3DHPで83.6%の最先端の3D PCKが得られることだ。
論文 参考訳(メタデータ) (2020-07-04T09:45:18Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。