論文の概要: MultiViPerFrOG: A Globally Optimized Multi-Viewpoint Perception Framework for Camera Motion and Tissue Deformation
- arxiv url: http://arxiv.org/abs/2408.04367v1
- Date: Thu, 8 Aug 2024 10:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:48:23.208380
- Title: MultiViPerFrOG: A Globally Optimized Multi-Viewpoint Perception Framework for Camera Motion and Tissue Deformation
- Title(参考訳): MultiViPerFrOG: カメラモーションと組織変形のためのグローバル最適化多視点知覚フレームワーク
- Authors: Guido Caccianiga, Julian Nubert, Cesar Cadena, Marco Hutter, Katherine J. Kuchenbecker,
- Abstract要約: 本稿では,低レベル認識モジュールの出力をキネマティックおよびシーンモデリングの先駆体と柔軟に統合するフレームワークを提案する。
提案手法は,数ミリ秒で数百ポイントの処理が可能であり,ノイズの多い入力手段の組み合わせに対するロバスト性を示す。
- 参考スコア(独自算出の注目度): 18.261678529996104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing the 3D shape of a deformable environment from the information captured by a moving depth camera is highly relevant to surgery. The underlying challenge is the fact that simultaneously estimating camera motion and tissue deformation in a fully deformable scene is an ill-posed problem, especially from a single arbitrarily moving viewpoint. Current solutions are often organ-specific and lack the robustness required to handle large deformations. Here we propose a multi-viewpoint global optimization framework that can flexibly integrate the output of low-level perception modules (data association, depth, and relative scene flow) with kinematic and scene-modeling priors to jointly estimate multiple camera motions and absolute scene flow. We use simulated noisy data to show three practical examples that successfully constrain the convergence to a unique solution. Overall, our method shows robustness to combined noisy input measures and can process hundreds of points in a few milliseconds. MultiViPerFrOG builds a generalized learning-free scaffolding for spatio-temporal encoding that can unlock advanced surgical scene representations and will facilitate the development of the computer-assisted-surgery technologies of the future.
- Abstract(参考訳): 移動深度カメラが捉えた情報から、変形可能な環境の3次元形状を再構成することは、手術に非常に関係している。
根底にある課題は、完全に変形可能なシーンにおけるカメラの動きと組織の変形を同時に推定することが不適切な問題であるという事実である。
現在の解はしばしばオルガン特異的であり、大きな変形を扱うために必要な頑丈さは欠如している。
本稿では,低レベル認識モジュール(データアソシエーション,深度,相対的なシーンフロー)の出力をキネマティック・シーンモデリングに柔軟に統合し,複数のカメラの動きと絶対的なシーンフローを同時推定する多視点グローバル最適化フレームワークを提案する。
シミュレーションノイズデータを用いて、一意解への収束をうまく制約する3つの実例を示す。
提案手法は,数ミリ秒で数百ポイントの処理が可能であり,ノイズの多い入力手段の組み合わせに対するロバスト性を示す。
MultiViPerFrOGは、時空間符号化のための汎用的な学習不要の足場を構築し、高度な手術シーン表現を解放し、将来のコンピュータ支援手術技術の開発を促進する。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - A Pose-only Solution to Visual Reconstruction and Navigation [23.86386627769292]
大規模なシーンやクリティカルなカメラの動きは、この目標を達成するために研究コミュニティが直面する大きな課題です。
私たちは、これらの課題を解決できるポーズオンリーのイメージングジオメトリフレームワークとアルゴリズムを立ち上げました。
論文 参考訳(メタデータ) (2021-03-02T07:21:08Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Event-based Stereo Visual Odometry [42.77238738150496]
ステレオ・イベント・ベースのカメラ・リグが取得したデータから視覚計測の問題に対する解決策を提案する。
我々は,シンプルかつ効率的な表現を用いて,ステレオイベントベースのデータの時間的一貫性を最大化する。
論文 参考訳(メタデータ) (2020-07-30T15:53:28Z) - DFVS: Deep Flow Guided Scene Agnostic Image Based Visual Servoing [11.000164408890635]
既存のディープラーニングベースのビジュアルサーボアプローチは、画像間の相対カメラのポーズを後退させる。
我々は、深層ニューラルネットワークを用いて予測される視覚的特徴として光学的流れを考察する。
2cm以下と1度以下の正確な位置を維持しながら3m以上40度以上の収束性を示した。
論文 参考訳(メタデータ) (2020-03-08T11:42:36Z) - Multi-object Monocular SLAM for Dynamic Environments [12.537311048732017]
マルチボディ(multibody)という言葉は、カメラの動きと、シーン内の他のダイナミックな参加者の動きを追跡することを意味する。
既存のアプローチは制限された問題の変種を解くが、解は相対的なスケールの曖昧さに悩まされる。
本稿では,相対的および絶対的スケール係数の曖昧さを解決するために,多ポーズグラフ最適化の定式化を提案する。
論文 参考訳(メタデータ) (2020-02-10T03:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。