論文の概要: Stereo Video Reconstruction Without Explicit Depth Maps for Endoscopic
Surgery
- arxiv url: http://arxiv.org/abs/2109.08227v1
- Date: Thu, 16 Sep 2021 21:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:45:14.708896
- Title: Stereo Video Reconstruction Without Explicit Depth Maps for Endoscopic
Surgery
- Title(参考訳): 内視鏡下手術用深度マップを併用したステレオ映像再構成
- Authors: Annika Brundyn, Jesse Swanson, Kyunghyun Cho, Doug Kondziolka, Eric
Oermann
- Abstract要約: 本研究は,低侵襲手術用2D-to-3Dビデオ変換の課題について紹介する。
このタスクのために、エンド・ツー・エンドのU-Netベースの一連のソリューションを設計、実装する。
内視鏡下手術を日常的に行う外科医10名を対象に,これらのソリューションの評価を行った。
- 参考スコア(独自算出の注目度): 37.531587409884914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the task of stereo video reconstruction or, equivalently,
2D-to-3D video conversion for minimally invasive surgical video. We design and
implement a series of end-to-end U-Net-based solutions for this task by varying
the input (single frame vs. multiple consecutive frames), loss function (MSE,
MAE, or perceptual losses), and network architecture. We evaluate these
solutions by surveying ten experts - surgeons who routinely perform endoscopic
surgery. We run two separate reader studies: one evaluating individual frames
and the other evaluating fully reconstructed 3D video played on a VR headset.
In the first reader study, a variant of the U-Net that takes as input multiple
consecutive video frames and outputs the missing view performs best. We draw
two conclusions from this outcome. First, motion information coming from
multiple past frames is crucial in recreating stereo vision. Second, the
proposed U-Net variant can indeed exploit such motion information for solving
this task. The result from the second study further confirms the effectiveness
of the proposed U-Net variant. The surgeons reported that they could
successfully perceive depth from the reconstructed 3D video clips. They also
expressed a clear preference for the reconstructed 3D video over the original
2D video. These two reader studies strongly support the usefulness of the
proposed task of stereo reconstruction for minimally invasive surgical video
and indicate that deep learning is a promising approach to this task. Finally,
we identify two automatic metrics, LPIPS and DISTS, that are strongly
correlated with expert judgement and that could serve as proxies for the latter
in future studies.
- Abstract(参考訳): 本研究は,低侵襲手術用2D-to-3Dビデオ変換におけるステレオビデオ再構成の課題について紹介する。
我々は、入力(シングルフレーム対複数連続フレーム)、損失関数(mse、mae、知覚損失)、ネットワークアーキテクチャを変化させて、このタスクのエンドツーエンドのu-netベースのソリューションを設計し実装する。
内視鏡手術を日常的に行う10名の外科医を対象とした。
1つは個々のフレームを評価し、もう1つはVRヘッドセットで再生された完全に再構成された3Dビデオを評価する。
第1の読者調査では、複数の連続したビデオフレームを入力し、欠落したビューを出力するu-netの変種が最もパフォーマンスが良い。
我々はこの結果から2つの結論を導き出す。
まず、複数の過去のフレームから得られる動き情報は、ステレオビジョンの再現に不可欠である。
第二に、提案したU-Net変種は、実際にそのような動き情報を利用してこの課題を解決することができる。
第2報の結果は,提案するu-net変異体の有効性をさらに確認した。
外科医たちは、再構築された3dビデオクリップから奥行きを認識できると報告した。
彼らはまた、オリジナルの2dビデオよりも再構成された3dビデオに明確な好みを示した。
この2つの読者研究は, 最小限の侵襲的手術ビデオに対するステレオ・リコンストラクションの有用性を強く支持し, 深層学習がこの課題に対して有望なアプローチであることを示す。
最後に、専門家の判断と強く相関し、将来の研究において後者のプロキシとして機能する2つの自動メトリクス、LPIPSとdisTSを同定する。
関連論文リスト
- MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - MinD-3D: Reconstruct High-quality 3D objects in Human Brain [53.546633606914455]
Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3D視覚を再構築することに焦点を当てた画期的なタスクである。
総合的なfMRI信号キャプチャのための3Dオブジェクトの360度映像を利用したfMRI-Shapeデータセットを提案する。
また,fMRI信号から脳の3次元視覚情報をデコードし,再構成する新しい3段階フレームワークMinD-3Dを提案する。
論文 参考訳(メタデータ) (2023-12-12T18:21:36Z) - DreaMo: Articulated 3D Reconstruction From A Single Casual Video [59.87221439498147]
対象者の視界が不完全である単一かつカジュアルに捉えたインターネットビデオから3次元形状の連続的再構成について検討した。
DreaMoは、ノベルビューレンダリング、詳細な形状復元、骨格生成において有望な品質を示している。
論文 参考訳(メタデータ) (2023-12-05T09:47:37Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from
Videos [32.48058491211032]
本稿では,3次元の表情を視覚的に認識する最初の方法を提案する。
我々は,3次元再構成音声頭部からの知覚がオリジナルの映像と類似するように適合過程を導出する「可読性」損失を提案する。
論文 参考訳(メタデータ) (2022-07-22T14:07:46Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z) - 3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。
提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。
開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文 参考訳(メタデータ) (2020-06-06T09:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。