論文の概要: Long-Term Temporally Consistent Unpaired Video Translation from
Simulated Surgical 3D Data
- arxiv url: http://arxiv.org/abs/2103.17204v1
- Date: Wed, 31 Mar 2021 16:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 18:38:40.595053
- Title: Long-Term Temporally Consistent Unpaired Video Translation from
Simulated Surgical 3D Data
- Title(参考訳): 模擬手術3Dデータからの長時間持続的映像翻訳
- Authors: Dominik Rivoir, Micha Pfeiffer, Reuben Docea, Fiona Kolbinger, Carina
Riediger, J\"urgen Weitz, Stefanie Speidel
- Abstract要約: 本稿では,画像翻訳とニューラルレンダリングを併用して,写真リアルな腹部手術シーンにシミュレートする手法を提案する。
グローバル学習可能なテクスチャと照明不変のビューコンシスタンス損失を導入することにより,任意のビューの一貫した翻訳を生成する。
既存の画像ベース手法をビュー一貫性ビデオに拡張することにより,シミュレートされたトレーニングおよび手術用評価環境の適用性に影響を与えることを目指す。
- 参考スコア(独自算出の注目度): 0.059110875077162096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in unpaired video translation has mainly focused on short-term
temporal consistency by conditioning on neighboring frames. However for
transfer from simulated to photorealistic sequences, available information on
the underlying geometry offers potential for achieving global consistency
across views. We propose a novel approach which combines unpaired image
translation with neural rendering to transfer simulated to photorealistic
surgical abdominal scenes. By introducing global learnable textures and a
lighting-invariant view-consistency loss, our method produces consistent
translations of arbitrary views and thus enables long-term consistent video
synthesis. We design and test our model to generate video sequences from
minimally-invasive surgical abdominal scenes. Because labeled data is often
limited in this domain, photorealistic data where ground truth information from
the simulated domain is preserved is especially relevant. By extending existing
image-based methods to view-consistent videos, we aim to impact the
applicability of simulated training and evaluation environments for surgical
applications. Code and data will be made publicly available soon.
- Abstract(参考訳): 非ペアビデオ翻訳の研究は主に、隣接フレームの条件付けによる短期的時間的一貫性に焦点が当てられている。
しかし、シミュレーションからフォトリアリスティックなシーケンスへの転送では、基盤となる幾何学に関する利用可能な情報は、ビュー間のグローバル一貫性を実現する可能性を提供する。
本稿では,画像翻訳とニューラルレンダリングを併用して,写真リアルな腹部手術シーンにシミュレートする手法を提案する。
グローバル学習可能なテクスチャとライティング不変なビューコンシスタンスロスを導入することにより,任意のビューの一貫した翻訳を行い,長期一貫したビデオ合成を可能にする。
最小侵襲の腹部手術シーンから映像シーケンスを生成するためのモデルの設計と試験を行った。
ラベル付きデータは、この領域でしばしば制限されるため、シミュレートされた領域からの基底真理情報が保存されるフォトリアリスティックデータは特に重要である。
既存の画像ベース手法をビュー一貫性ビデオに拡張することにより,シミュレートされたトレーニングおよび手術用評価環境の適用性に影響を与えることを目指す。
コードとデータは近々公開される予定だ。
関連論文リスト
- MeshBrush: Painting the Anatomical Mesh with Neural Stylization for Endoscopy [0.8437187555622164]
スタイルトランスファーは、医療内視鏡におけるシミュレートとリアルのギャップを埋めるための有望なアプローチである。
術前スキャンによって合成内視鏡ビデオをレンダリングすると、構造的に正確なシミュレーションが生成される。
CycleGANはこれらのシミュレーションから現実的な内視鏡像を模倣することができるが、ビデオとビデオの合成には適さない。
時間的に一貫した映像を合成するニューラルネットワークスタイリング手法であるMeshBrushを提案する。
論文 参考訳(メタデータ) (2024-04-03T18:40:48Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Joint one-sided synthetic unpaired image translation and segmentation
for colorectal cancer prevention [16.356954231068077]
我々は3D技術と生成対向ネットワークを組み合わせたリアルな合成画像を作成する。
CUT-segは,分割モデルと生成モデルとを共同で訓練し,現実的な画像を生成する共同訓練である。
この研究の一環として、20000のリアルな大腸画像を含む完全に合成されたデータセットであるSynth-Colonをリリースする。
論文 参考訳(メタデータ) (2023-07-20T22:09:04Z) - Translating Simulation Images to X-ray Images via Multi-Scale Semantic
Matching [16.175115921436582]
本稿では,血管内シミュレータからX線画像へのシミュレーション画像の変換手法を提案する。
入力画像と生成画像が同じ位置意味関係を持つことを保証するために,自己ドメイン意味マッチングを適用した。
提案手法は, 現実的なX線画像を生成し, 最先端のアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-04-16T04:49:46Z) - Synthetic-to-Real Domain Adaptation using Contrastive Unpaired
Translation [28.19031441659854]
手動のアノテーションを使わずにトレーニングデータを取得するための多段階手法を提案する。
3Dオブジェクトメッシュから,現代的な合成パイプラインを用いて画像を生成する。
合成画像の実際の領域への適応に最先端のイメージ・ツー・イメージ変換法を用いる。
論文 参考訳(メタデータ) (2022-03-17T17:13:23Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Learning optical flow from still images [53.295332513139925]
我々は,容易に利用可能な単一の実画像から,高精度な光学的フローアノテーションを迅速かつ多量に生成するフレームワークを提案する。
既知の動きベクトルと回転角を持つ再構成された環境でカメラを仮想的に移動させる。
我々のデータでトレーニングすると、最先端の光フローネットワークは、実データを見るのに優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:58Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。