論文の概要: IVS3D: An Open Source Framework for Intelligent Video Sampling and
Preprocessing to Facilitate 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2110.11810v1
- Date: Fri, 22 Oct 2021 14:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 18:27:03.671222
- Title: IVS3D: An Open Source Framework for Intelligent Video Sampling and
Preprocessing to Facilitate 3D Reconstruction
- Title(参考訳): IVS3D: インテリジェントビデオサンプリングと3D再構成のための前処理のためのオープンソースフレームワーク
- Authors: Max Hermann, Thomas Pollok, Daniel Brommer, Dominic Zahn
- Abstract要約: iVS3Dは、画像シーケンスのインテリジェントな前処理のためのフレームワークである。
われわれのソフトウェアは、ビデオ全体を特定のフレームレートにダウンできる。
モジュールアーキテクチャのおかげで、追加のアルゴリズムでプラグインを開発し、統合するのは簡単です。
- 参考スコア(独自算出の注目度): 0.8029049649310211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The creation of detailed 3D models is relevant for a wide range of
applications such as navigation in three-dimensional space, construction
planning or disaster assessment. However, the complex processing and long
execution time for detailed 3D reconstructions require the original database to
be reduced in order to obtain a result in reasonable time. In this paper we
therefore present our framework iVS3D for intelligent pre-processing of image
sequences. Our software is able to down sample entire videos to a specific
frame rate, as well as to resize and crop the individual images. Furthermore,
thanks to our modular architecture, it is easy to develop and integrate plugins
with additional algorithms. We provide three plugins as baseline methods that
enable an intelligent selection of suitable images and can enrich them with
additional information. To filter out images affected by motion blur, we
developed a plugin that detects these frames and also searches the spatial
neighbourhood for suitable images as replacements. The second plugin uses
optical flow to detect redundant images caused by a temporarily stationary
camera. In our experiments, we show how this approach leads to a more balanced
image sampling if the camera speed varies, and that excluding such redundant
images leads to a time saving of 8.1\percent for our sequences. A third plugin
makes it possible to exclude challenging image regions from the 3D
reconstruction by performing semantic segmentation. As we think that the
community can greatly benefit from such an approach, we will publish our
framework and the developed plugins open source using the MIT licence to allow
co-development and easy extension.
- Abstract(参考訳): 詳細な3Dモデルの作成は、3次元空間でのナビゲーション、建設計画、災害評価など幅広い応用に関係している。
しかし、複雑な処理と詳細な3d復元に要する長い実行時間は、その結果を妥当な時間で得るために元のデータベースを縮小する必要がある。
そこで本稿では,画像シーケンスの知的前処理のためのフレームワークiVS3Dを提案する。
私たちのソフトウェアは、サンプルビデオ全体を特定のフレームレートにダウンさせ、個々の画像のサイズを変えて収穫することができる。
さらに、モジュールアーキテクチャのおかげで、プラグインと追加のアルゴリズムの開発と統合が容易になります。
3つのプラグインをベースラインとして提供し、適切な画像のインテリジェントな選択を可能にし、それらを追加情報で強化する。
動きのぼかしに影響を受ける画像のフィルタリングを行うために,これらのフレームを検知し,その代替画像として空間近傍を探索するプラグインを開発した。
第2のプラグインは、光学フローを使用して、一時的に静止したカメラによって引き起こされる冗長な画像を検出する。
実験では、カメラの速度が変化した場合、このアプローチがよりバランスの取れた画像サンプリングにどのようにつながるかを示し、このような冗長な画像を除外すると、シーケンスに8.1パーセントの時間を節約できることを示した。
第3のプラグインは、セマンティックセグメンテーションを実行することで、困難な画像領域を3D再構成から除外することができる。
コミュニティがそのようなアプローチから大きな恩恵を受けることができると考えているので、我々はフレームワークと開発済みプラグインをMITライセンスを使ってオープンソースに公開し、共同開発と容易に拡張できるようにします。
関連論文リスト
- VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。
提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文 参考訳(メタデータ) (2024-02-27T11:40:50Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - Visual Geometry Grounded Deep Structure From Motion [20.203320509695306]
本稿では,各コンポーネントが完全に微分可能で,エンドツーエンドでトレーニング可能な,新しいディープパイプラインVGGSfMを提案する。
まず, 深部2次元点追跡の最近の進歩をベースとして, 画素精度の高いトラックを抽出し, ペアマッチングのチェーン化の必要性を解消する。
私たちは、CO3D、IMC Phototourism、ETH3Dという3つの一般的なデータセットで最先端のパフォーマンスを達成しました。
論文 参考訳(メタデータ) (2023-12-07T18:59:52Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Make Encoder Great Again in 3D GAN Inversion through Geometry and
Occlusion-Aware Encoding [25.86312557482366]
3D GANインバージョンは、単一の画像入力から高い再構成忠実度と合理的な3D幾何を同時に達成することを目的としている。
本稿では,最も広く使用されている3D GANモデルの1つであるEG3Dに基づく,新しいエンコーダベースの逆変換フレームワークを提案する。
提案手法は,最大500倍高速に動作しながら,最適化手法に匹敵する印象的な結果が得られる。
論文 参考訳(メタデータ) (2023-03-22T05:51:53Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。