Fugu-MT 論文翻訳(概要): IVS3D: An Open Source Framework for Intelligent Video Sampling and Preprocessing to Facilitate 3D Reconstruction

論文の概要: IVS3D: An Open Source Framework for Intelligent Video Sampling and Preprocessing to Facilitate 3D Reconstruction

arxiv url: http://arxiv.org/abs/2110.11810v1
Date: Fri, 22 Oct 2021 14:31:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-25 18:27:03.671222
Title: IVS3D: An Open Source Framework for Intelligent Video Sampling and Preprocessing to Facilitate 3D Reconstruction
Title（参考訳）: IVS3D: インテリジェントビデオサンプリングと3D再構成のための前処理のためのオープンソースフレームワーク
Authors: Max Hermann, Thomas Pollok, Daniel Brommer, Dominic Zahn
Abstract要約: iVS3Dは、画像シーケンスのインテリジェントな前処理のためのフレームワークである。われわれのソフトウェアは、ビデオ全体を特定のフレームレートにダウンできる。モジュールアーキテクチャのおかげで、追加のアルゴリズムでプラグインを開発し、統合するのは簡単です。
参考スコア（独自算出の注目度）: 0.8029049649310211
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The creation of detailed 3D models is relevant for a wide range of applications such as navigation in three-dimensional space, construction planning or disaster assessment. However, the complex processing and long execution time for detailed 3D reconstructions require the original database to be reduced in order to obtain a result in reasonable time. In this paper we therefore present our framework iVS3D for intelligent pre-processing of image sequences. Our software is able to down sample entire videos to a specific frame rate, as well as to resize and crop the individual images. Furthermore, thanks to our modular architecture, it is easy to develop and integrate plugins with additional algorithms. We provide three plugins as baseline methods that enable an intelligent selection of suitable images and can enrich them with additional information. To filter out images affected by motion blur, we developed a plugin that detects these frames and also searches the spatial neighbourhood for suitable images as replacements. The second plugin uses optical flow to detect redundant images caused by a temporarily stationary camera. In our experiments, we show how this approach leads to a more balanced image sampling if the camera speed varies, and that excluding such redundant images leads to a time saving of 8.1\percent for our sequences. A third plugin makes it possible to exclude challenging image regions from the 3D reconstruction by performing semantic segmentation. As we think that the community can greatly benefit from such an approach, we will publish our framework and the developed plugins open source using the MIT licence to allow co-development and easy extension.
Abstract（参考訳）: 詳細な3Dモデルの作成は、3次元空間でのナビゲーション、建設計画、災害評価など幅広い応用に関係している。しかし、複雑な処理と詳細な3d復元に要する長い実行時間は、その結果を妥当な時間で得るために元のデータベースを縮小する必要がある。そこで本稿では,画像シーケンスの知的前処理のためのフレームワークiVS3Dを提案する。私たちのソフトウェアは、サンプルビデオ全体を特定のフレームレートにダウンさせ、個々の画像のサイズを変えて収穫することができる。さらに、モジュールアーキテクチャのおかげで、プラグインと追加のアルゴリズムの開発と統合が容易になります。 3つのプラグインをベースラインとして提供し、適切な画像のインテリジェントな選択を可能にし、それらを追加情報で強化する。動きのぼかしに影響を受ける画像のフィルタリングを行うために,これらのフレームを検知し,その代替画像として空間近傍を探索するプラグインを開発した。第2のプラグインは、光学フローを使用して、一時的に静止したカメラによって引き起こされる冗長な画像を検出する。実験では、カメラの速度が変化した場合、このアプローチがよりバランスの取れた画像サンプリングにどのようにつながるかを示し、このような冗長な画像を除外すると、シーケンスに8.1パーセントの時間を節約できることを示した。第3のプラグインは、セマンティックセグメンテーションを実行することで、困難な画像領域を3D再構成から除外することができる。コミュニティがそのようなアプローチから大きな恩恵を受けることができると考えているので、我々はフレームワークと開発済みプラグインをMITライセンスを使ってオープンソースに公開し、共同開発と容易に拡張できるようにします。

関連論文リスト

Taking Language Embedded 3D Gaussian Splatting into the Wild [6.550474097747006]
制約のない写真コレクションからのオープン語彙シーン理解のための新しいフレームワークを提案する。具体的には、まず同じ視点から複数の外観画像を描画し、次に複数出現するCLIP特徴を抽出する。次に,言語特徴を効果的に圧縮し,学習し,融合させるための,過渡的不確実性を考慮したオートエンコーダ,多言語言語フィールド3DGS表現,および後アンサンブル戦略を提案する。
論文参考訳（メタデータ） (2025-07-26T07:00:32Z)
Flash Sculptor: Modular 3D Worlds from Objects [73.63179709035595]
Flash Sculptorは、単一の画像から3Dシーン/オブジェクトを再構成するための、シンプルで効果的なフレームワークである。回転には、効率と精度の両面での長所をもたらす粗粒度スキームを導入するが、翻訳には不向きであるが、外乱除去に基づくアルゴリズムを開発する。実験によると、Flash Sculptorは既存の合成3Dメソッドよりも少なくとも3倍のスピードアップを実現している。
論文参考訳（メタデータ） (2025-04-08T16:20:51Z)
MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。計算複雑性を低減できる多層メモリ機構でモデルを拡張します。このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文参考訳（メタデータ） (2025-03-03T15:36:07Z)
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [59.77970844874235]
スパースビュー画像から高品質な3Dガウス画像を生成することができるフィードフォワード再構築フレームワークであるFreeSplatterを提案する。 FreeSplatterは、シーケンシャルな自己アテンションブロックで構成される、合理化されたトランスフォーマーアーキテクチャ上に構築されている。テキスト・画像・3Dコンテンツ作成など,下流アプリケーションの生産性を高めるFreeSplatterの可能性を示す。
論文参考訳（メタデータ） (2024-12-12T18:52:53Z)
GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-06-21T17:49:31Z)
WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2024-06-04T15:17:37Z)
Lightplane: Highly-Scalable Components for Neural 3D Fields [54.59244949629677]
Lightplane RenderとSplatterは2D-3Dマッピングにおけるメモリ使用量を大幅に削減した。これらのイノベーションは、メモリと計算コストの少ない、はるかに高解像度で高解像度の画像の処理を可能にする。
論文参考訳（メタデータ） (2024-04-30T17:59:51Z)
Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文参考訳（メタデータ） (2024-04-09T16:20:03Z)
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes [20.871847154995688]
FlexiDreamerは、マルチビュー生成イメージから高品質なメッシュを直接再構築する新しいフレームワークである。提案手法では,1つの画像から3次元の下流タスクにおいて,約1分で高忠実度3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-04-01T08:20:18Z)
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文参考訳（メタデータ） (2024-03-20T11:51:04Z)
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文参考訳（メタデータ） (2024-02-27T11:40:50Z)
Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文参考訳（メタデータ） (2023-12-20T16:14:58Z)
Make Encoder Great Again in 3D GAN Inversion through Geometry and Occlusion-Aware Encoding [25.86312557482366]
3D GANインバージョンは、単一の画像入力から高い再構成忠実度と合理的な3D幾何を同時に達成することを目的としている。本稿では,最も広く使用されている3D GANモデルの1つであるEG3Dに基づく,新しいエンコーダベースの逆変換フレームワークを提案する。提案手法は,最大500倍高速に動作しながら,最適化手法に匹敵する印象的な結果が得られる。
論文参考訳（メタデータ） (2023-03-22T05:51:53Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。