Fugu-MT 論文翻訳(概要): Stereo Video Reconstruction Without Explicit Depth Maps for Endoscopic Surgery

論文の概要: Stereo Video Reconstruction Without Explicit Depth Maps for Endoscopic Surgery

arxiv url: http://arxiv.org/abs/2109.08227v1
Date: Thu, 16 Sep 2021 21:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-20 14:45:14.708896
Title: Stereo Video Reconstruction Without Explicit Depth Maps for Endoscopic Surgery
Title（参考訳）: 内視鏡下手術用深度マップを併用したステレオ映像再構成
Authors: Annika Brundyn, Jesse Swanson, Kyunghyun Cho, Doug Kondziolka, Eric Oermann
Abstract要約: 本研究は,低侵襲手術用2D-to-3Dビデオ変換の課題について紹介する。このタスクのために、エンド・ツー・エンドのU-Netベースの一連のソリューションを設計、実装する。内視鏡下手術を日常的に行う外科医10名を対象に,これらのソリューションの評価を行った。
参考スコア（独自算出の注目度）: 37.531587409884914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the task of stereo video reconstruction or, equivalently, 2D-to-3D video conversion for minimally invasive surgical video. We design and implement a series of end-to-end U-Net-based solutions for this task by varying the input (single frame vs. multiple consecutive frames), loss function (MSE, MAE, or perceptual losses), and network architecture. We evaluate these solutions by surveying ten experts - surgeons who routinely perform endoscopic surgery. We run two separate reader studies: one evaluating individual frames and the other evaluating fully reconstructed 3D video played on a VR headset. In the first reader study, a variant of the U-Net that takes as input multiple consecutive video frames and outputs the missing view performs best. We draw two conclusions from this outcome. First, motion information coming from multiple past frames is crucial in recreating stereo vision. Second, the proposed U-Net variant can indeed exploit such motion information for solving this task. The result from the second study further confirms the effectiveness of the proposed U-Net variant. The surgeons reported that they could successfully perceive depth from the reconstructed 3D video clips. They also expressed a clear preference for the reconstructed 3D video over the original 2D video. These two reader studies strongly support the usefulness of the proposed task of stereo reconstruction for minimally invasive surgical video and indicate that deep learning is a promising approach to this task. Finally, we identify two automatic metrics, LPIPS and DISTS, that are strongly correlated with expert judgement and that could serve as proxies for the latter in future studies.
Abstract（参考訳）: 本研究は,低侵襲手術用2D-to-3Dビデオ変換におけるステレオビデオ再構成の課題について紹介する。我々は、入力(シングルフレーム対複数連続フレーム)、損失関数(mse、mae、知覚損失)、ネットワークアーキテクチャを変化させて、このタスクのエンドツーエンドのu-netベースのソリューションを設計し実装する。内視鏡手術を日常的に行う10名の外科医を対象とした。 1つは個々のフレームを評価し、もう1つはVRヘッドセットで再生された完全に再構成された3Dビデオを評価する。第1の読者調査では、複数の連続したビデオフレームを入力し、欠落したビューを出力するu-netの変種が最もパフォーマンスが良い。我々はこの結果から2つの結論を導き出す。まず、複数の過去のフレームから得られる動き情報は、ステレオビジョンの再現に不可欠である。第二に、提案したU-Net変種は、実際にそのような動き情報を利用してこの課題を解決することができる。第2報の結果は,提案するu-net変異体の有効性をさらに確認した。外科医たちは、再構築された3dビデオクリップから奥行きを認識できると報告した。彼らはまた、オリジナルの2dビデオよりも再構成された3dビデオに明確な好みを示した。この2つの読者研究は, 最小限の侵襲的手術ビデオに対するステレオ・リコンストラクションの有用性を強く支持し, 深層学習がこの課題に対して有望なアプローチであることを示す。最後に、専門家の判断と強く相関し、将来の研究において後者のプロキシとして機能する2つの自動メトリクス、LPIPSとdisTSを同定する。

関連論文リスト

VidFuncta: Towards Generalizable Neural Representations for Ultrasound Videos [3.5951107525164576]
暗黙的ニューラル表現(INR)による超音波ビデオ解析の新しい視点を提供する。我々はFunctaというINRフレームワークを構築し、各イメージを共有ニューラルネットワークを条件とした変調ベクトルで表現する。本稿では,Functaを利用して可変長の超音波ビデオをコンパクトな時間分解表現に符号化する新しいフレームワークであるVidFunctaを提案する。
論文参考訳（メタデータ） (2025-07-29T14:35:08Z)
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-27T17:53:18Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
A Review of 3D Reconstruction Techniques for Deformable Tissues in Robotic Surgery [8.909938295090827]
NeRFベースの技術は、暗黙的にシーンを再構築する能力に注目が集まっている。一方、3D-GSは3Dガウシアンを明示的に使用し、NeRFの複雑なボリュームレンダリングの代替として2D平面に投影するシーンを表現している。この研究は、最先端のSOTA(State-of-the-art)アプローチを探求し、レビューし、彼らのイノベーションと実装原則について議論する。
論文参考訳（メタデータ） (2024-08-08T12:51:23Z)
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文参考訳（メタデータ） (2024-06-04T17:57:37Z)
MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文参考訳（メタデータ） (2024-01-29T05:58:23Z)
Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文参考訳（メタデータ） (2023-09-11T17:58:30Z)
Geometry-Aware Attenuation Learning for Sparse-View CBCT Reconstruction [53.93674177236367]
Cone Beam Computed Tomography (CBCT) は臨床画像撮影において重要な役割を担っている。従来の方法では、高品質な3D CBCT画像の再構成には数百の2次元X線投影が必要である。これにより、放射線線量を減らすため、スパースビューCBCT再構成への関心が高まっている。本稿では,この問題を解決するために,新しい幾何対応エンコーダデコーダフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-26T14:38:42Z)
SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文参考訳（メタデータ） (2022-07-16T19:25:41Z)
Video Summarization through Reinforcement Learning with a 3D Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。 2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文参考訳（メタデータ） (2021-06-19T16:27:19Z)
3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文参考訳（メタデータ） (2020-06-06T09:56:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。