論文の概要: PIS3R: Very Large Parallax Image Stitching via Deep 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2508.04236v1
- Date: Wed, 06 Aug 2025 09:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.651274
- Title: PIS3R: Very Large Parallax Image Stitching via Deep 3D Reconstruction
- Title(参考訳): PIS3R:深部3D再構成による超大型視差画像撮影
- Authors: Muhua Zhu, Xinhao Jin, Chengbo Wang, Yongcong Zhang, Yifei Xue, Tie Ji, Yizhen Lao,
- Abstract要約: 画像縫合は、異なる視点から撮影された2つの画像を、シームレスで広い1つの画像に整列することを目的としている。
既存の縫合法の多くは、このような画像を大きな視差で効果的に扱うのに苦労している。
我々は, 深部3次元再構成という新しい概念を基礎として, 非常に大きな視差に対して頑健なPSS3Rを提案する。
- 参考スコア(独自算出の注目度): 5.816094524098354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image stitching aim to align two images taken from different viewpoints into one seamless, wider image. However, when the 3D scene contains depth variations and the camera baseline is significant, noticeable parallax occurs-meaning the relative positions of scene elements differ substantially between views. Most existing stitching methods struggle to handle such images with large parallax effectively. To address this challenge, in this paper, we propose an image stitching solution called PIS3R that is robust to very large parallax based on the novel concept of deep 3D reconstruction. First, we apply visual geometry grounded transformer to two input images with very large parallax to obtain both intrinsic and extrinsic parameters, as well as the dense 3D scene reconstruction. Subsequently, we reproject reconstructed dense point cloud onto a designated reference view using the recovered camera parameters, achieving pixel-wise alignment and generating an initial stitched image. Finally, to further address potential artifacts such as holes or noise in the initial stitching, we propose a point-conditioned image diffusion module to obtain the refined result.Compared with existing methods, our solution is very large parallax tolerant and also provides results that fully preserve the geometric integrity of all pixels in the 3D photogrammetric context, enabling direct applicability to downstream 3D vision tasks such as SfM. Experimental results demonstrate that the proposed algorithm provides accurate stitching results for images with very large parallax, and outperforms the existing methods qualitatively and quantitatively.
- Abstract(参考訳): 画像縫合は、異なる視点から撮影された2つの画像を、シームレスで広い1つの画像に整列することを目的としている。
しかし、3Dシーンに奥行きの変化があり、カメラベースラインが重要な場合、目立ったパララックスが発生する。
既存の縫合法の多くは、このような画像を大きな視差で効果的に扱うのに苦労している。
この課題に対処するため,本論文では,深部3次元再構成という新しい概念に基づいて,非常に大きな視差に対して頑健な画像縫合解 PIS3R を提案する。
まず,非常に大きなパララックスを持つ2つの入力画像に視覚的幾何学的基底変換器を適用し,本質的・外生的パラメータと高密度な3次元シーン再構成を実現する。
その後、回収されたカメラパラメータを用いて、再構成された高密度点雲を指定基準ビューに再計画し、ピクセルワイドなアライメントを実現し、初期縫合画像を生成する。
最後に, 初期縫合時の穴やノイズなどの潜在的なアーティファクトにさらに対処するため, 改良した画像拡散モジュールを提案し, 既存の方法と比較すると, 従来のパララックス耐性は極めて大きく, また, SfMなどの下流3次元視覚タスクに直接適用可能な3次元フォトグラム環境における全画素の幾何的整合性を完全に維持する結果も提示する。
実験により,提案アルゴリズムは,非常に大きな視差を持つ画像に対して正確な縫合結果を提供し,既存の手法を質的かつ定量的に上回ることを示す。
関連論文リスト
- HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - Fine Dense Alignment of Image Bursts through Camera Pose and Depth
Estimation [45.11207941777178]
本稿では,ハンドヘルドカメラが捉えたバースト内の画像の微細なアライメントに対する新しいアプローチを提案する。
提案アルゴリズムは、各画素におけるカメラの動きと表面の深さと向きの両方を最適化することにより、密度の高い対応性を確立する。
論文 参考訳(メタデータ) (2023-12-08T17:22:04Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - GeoFill: Reference-Based Image Inpainting of Scenes with Complex
Geometry [40.68659515139644]
参照誘導画像描画は、他の参照画像からのコンテンツを活用して画像画素を復元する。
我々は、単眼深度推定を利用して、カメラ間の相対的なポーズを予測し、その基準画像を異なる3次元再投影により目標に整列させる。
提案手法は,RealEstate10KとMannequinChallengeの両方のデータセットに対して,大規模なベースライン,複雑な幾何学,極端なカメラモーションによる最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T12:17:13Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。