論文の概要: UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models
- arxiv url: http://arxiv.org/abs/2604.17565v1
- Date: Sun, 19 Apr 2026 18:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.584039
- Title: UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models
- Title(参考訳): UniGeo:ビデオモデルによるカメラ制御可能な画像編集のための幾何学的ガイダンスの統合
- Authors: Hong Jiang, Wensong Song, Zongxing Yang, Ruijie Quan, Yi Yang,
- Abstract要約: カメラ制御可能な画像編集は、カメラポーズの異なるシーンの新しいビューを合成することを目的としている。
既存の方法は、表現レベルで点雲を注入するなど、断片化された幾何学的ガイダンスに依存している。
カメラ制御可能な新しい編集フレームワークUniGeoを提案する。
- 参考スコア(独自算出の注目度): 20.550231658763085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-controllable image editing aims to synthesize novel views of a given scene under varying camera poses while strictly preserving cross-view geometric consistency. However, existing methods typically rely on fragmented geometric guidance, such as only injecting point clouds at the representation level despite models containing multiple levels, and are mainly based on image diffusion models that operate on discrete view mappings. These two limitations jointly lead to geometric drift and structural degradation under continuous camera motion. We observe that while leveraging video models provides continuous viewpoint priors for camera-controllable image editing, they still struggle to form stable geometric understanding if geometric guidance remains fragmented. To systematically address this, we inject unified geometric guidance across three levels that jointly determine the generative output: representation, architecture, and loss function. To this end, we propose UniGeo, a novel camera-controllable editing framework. Specifically, at the representation level, UniGeo incorporates a frame-decoupled geometric reference injection mechanism to provide robust cross-view geometry context. At the architecture level, it introduces geometric anchor attention to align multi-view features. At the loss function level, it proposes a trajectory-endpoint geometric supervision strategy to explicitly reinforce the structural fidelity of target views. Comprehensive experiments across multiple public benchmarks, encompassing both extensive and limited camera motion settings, demonstrate that UniGeo significantly outperforms existing methods in both visual quality and geometric consistency.
- Abstract(参考訳): カメラ制御可能な画像編集は、横方向の幾何的一貫性を厳格に保ちながら、様々なカメラポーズの下でシーンの新しいビューを合成することを目的としている。
しかし、既存の手法は、複数のレベルを含むモデルにもかかわらず、表現レベルで点雲を注入することのみのような断片化された幾何学的ガイダンスに依存しており、主に個別のビューマッピングで動作する画像拡散モデルに基づいている。
これらの2つの制限は、連続したカメラの動きの下で幾何学的ドリフトと構造的劣化をもたらす。
ビデオモデルを活用することで、カメラ制御可能な画像編集において、連続的な視点の先行性を提供する一方で、幾何学的ガイダンスが断片化されたままであれば、安定した幾何学的理解を形成するのに苦慮している。
これを体系的に解決するために、生成出力(表現、アーキテクチャ、損失関数)を共同で決定する3つのレベルに統一的な幾何学的ガイダンスを注入する。
そこで我々は,カメラ制御可能な新しい編集フレームワークUniGeoを提案する。
特に、表現レベルでは、UniGeoはフレーム分離された幾何学的参照注入機構を組み込んで、堅牢なクロスビュー幾何学的コンテキストを提供する。
アーキテクチャレベルでは、幾何的アンカーアテンションを導入し、マルチビュー機能を整列させる。
損失関数レベルでは、ターゲットビューの構造的忠実度を明示的に補強する軌跡-端幾何学的監督戦略を提案する。
広範かつ限られたカメラモーション設定を含む、複数の公開ベンチマークにわたる総合的な実験は、UniGeoが視覚的品質と幾何学的整合性の両方において既存の手法を著しく上回っていることを実証している。
関連論文リスト
- Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation [34.92056161129864]
Ctrl&Shiftは3次元表現を明示せずに幾何一貫性のあるオブジェクト操作を実現するためのエンドツーエンド拡散フレームワークである。
我々の重要な洞察は、操作を2つの段階に分解することであり、オブジェクトの除去と、明示的なカメラポーズ制御の下での参照誘導塗装、および両者を統合拡散プロセス内にエンコードすることである。
我々の知る限り、これは、明示的な3Dモデリングに頼ることなく、きめ細かい幾何学的制御とオブジェクト操作の現実世界の一般化を統一する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-02-11T23:36:30Z) - Geometry-Aware Rotary Position Embedding for Consistent Video World Model [48.914346802616414]
ViewRopeは、ビデオトランスフォーマーの自己アテンション層に直接カメラの方向を注入するジオメトリ対応のエンコーディングである。
Geometry-Aware Frame-Sparse Attentionは、これらの幾何学的手がかりを利用して、関連する歴史的なフレームに選択的に参加する。
この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
論文 参考訳(メタデータ) (2026-02-08T08:01:16Z) - GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。
これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。
本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T16:46:59Z) - GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。
我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文 参考訳(メタデータ) (2025-11-28T13:55:45Z) - Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文 参考訳(メタデータ) (2025-10-24T16:21:37Z) - UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation [63.90470530428842]
本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。
その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
論文 参考訳(メタデータ) (2025-05-30T12:31:59Z) - Vid2Curve: Simultaneous Camera Motion Estimation and Thin Structure
Reconstruction from an RGB Video [90.93141123721713]
ワイヤーフレーム彫刻、フェンス、ケーブル、電力線、木の枝などの細い構造は現実世界では一般的である。
従来の画像ベースや深度ベースの再構築手法を用いて3Dデジタルモデルを入手することは極めて困難である。
ハンドヘルドカメラで撮影したカラービデオから,カメラの動きを同時に推定し,複雑な3次元薄膜構造の形状を高品質に再構成する手法を提案する。
論文 参考訳(メタデータ) (2020-05-07T10:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。