論文の概要: PoolNet: Deep Learning for 2D to 3D Video Process Validation
- arxiv url: http://arxiv.org/abs/2512.05362v1
- Date: Fri, 05 Dec 2025 02:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.865878
- Title: PoolNet: Deep Learning for 2D to 3D Video Process Validation
- Title(参考訳): PoolNet: 2Dから3Dビデオプロセス検証のためのディープラーニング
- Authors: Sanchit Kaul, Joseph Luna, Shray Arora,
- Abstract要約: 本稿では,Wild データのフレームレベルおよびシーンレベル検証のための汎用的なディープラーニングフレームワーク PoolNet を紹介する。
本研究では,SfM対応シーンを処理に不適なシーンと区別し,動作から構造データを得るのに要する処理時間を大幅に削減できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifting Structure-from-Motion (SfM) information from sequential and non-sequential image data is a time-consuming and computationally expensive task. In addition to this, the majority of publicly available data is unfit for processing due to inadequate camera pose variation, obscuring scene elements, and noisy data. To solve this problem, we introduce PoolNet, a versatile deep learning framework for frame-level and scene-level validation of in-the-wild data. We demonstrate that our model successfully differentiates SfM ready scenes from those unfit for processing while significantly undercutting the amount of time state of the art algorithms take to obtain structure-from-motion data.
- Abstract(参考訳): 逐次的および非逐次画像データからSfM(Lifting Structure-from-Motion)情報を抽出することは、時間と計算コストのかかる作業である。
これに加えて、公開データの大多数は、不適切なカメラポーズの変動、シーン要素の隠蔽、ノイズの多いデータのために処理に不適である。
この問題を解決するために,我々はフレームレベルおよびシーンレベルデータ検証のための汎用的なディープラーニングフレームワークであるPoolNetを紹介した。
我々は,SfM対応シーンを処理に不適なシーンと区別し,最先端のアルゴリズムが動作から構造データを得るのに要する時間を大幅に削減できることを実証した。
関連論文リスト
- KeyGS: A Keyframe-Centric Gaussian Splatting Method for Monocular Image Sequences [14.792295042683254]
深度やマッチングモデルなしで動作可能な,効率的なフレームワークを提案する。
そこで本研究では,細かな周波数認識による粗大な密度密度化を提案し,異なるレベルの詳細を再構築する。
論文 参考訳(メタデータ) (2024-12-30T07:32:35Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography [54.36608424943729]
2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
論文 参考訳(メタデータ) (2022-12-22T18:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。