論文の概要: Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field
- arxiv url: http://arxiv.org/abs/2602.20363v1
- Date: Mon, 23 Feb 2026 21:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.533728
- Title: Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field
- Title(参考訳): 3次元美的視野を用いた美的カメラ視点の提案
- Authors: Sheyang Tang, Armin Shafiee Sarvestani, Jialu Xu, Xiaoyu Xu, Zhou Wang,
- Abstract要約: 本稿では3次元の立体的美的推論を可能にする3次元美的場の概念を紹介した。
粗い視点サンプリングと勾配に基づく精錬を組み合わせた2段階探索パイプラインを提案する。
提案手法は,既存の手法に比べ,フレーミングとコンポジションが優れている視点を常に提案する。
- 参考スコア(独自算出の注目度): 14.117856349347305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aesthetic quality of a scene depends strongly on camera viewpoint. Existing approaches for aesthetic viewpoint suggestion are either single-view adjustments, predicting limited camera adjustments from a single image without understanding scene geometry, or 3D exploration approaches, which rely on dense captures or prebuilt 3D environments coupled with costly reinforcement learning (RL) searches. In this work, we introduce the notion of 3D aesthetic field that enables geometry-grounded aesthetic reasoning in 3D with sparse captures, allowing efficient viewpoint suggestions in contrast to costly RL searches. We opt to learn this 3D aesthetic field using a feedforward 3D Gaussian Splatting network that distills high-level aesthetic knowledge from a pretrained 2D aesthetic model into 3D space, enabling aesthetic prediction for novel viewpoints from only sparse input views. Building on this field, we propose a two-stage search pipeline that combines coarse viewpoint sampling with gradient-based refinement, efficiently identifying aesthetically appealing viewpoints without dense captures or RL exploration. Extensive experiments show that our method consistently suggests viewpoints with superior framing and composition compared to existing approaches, establishing a new direction toward 3D-aware aesthetic modeling.
- Abstract(参考訳): シーンの美的品質は、カメラの視点に強く依存する。
既存の美的視点提案のアプローチは、シーン幾何学を理解せずに単一の画像から限定的なカメラ調整を予測する一視点調整や、高密度のキャプチャや3D環境に依存した3D探索アプローチ、高価な強化学習(RL)探索などである。
本研究では,3次元の立体的立体的美的推論を可能にする3次元美的場の概念を導入し,高コストなRL探索とは対照的に,効率的な視点提案を可能にする。
トレーニング済みの2次元審美モデルから高レベルの審美的知識を3次元空間に蒸留するフィードフォワード3Dガウススプラッティングネットワークを用いて,この3次元美学分野を学習し,スパースインプットビューのみからの新規視点の審美的予測を可能にする。
そこで本研究では、粗い視点サンプリングと勾配に基づく改善を組み合わせた2段階探索パイプラインを提案し、高密度キャプチャやRL探索を伴わずに、審美的に魅力的な視点を効率よく同定する。
広汎な実験により,本手法は既存のアプローチに比べてフレーミングや構成に優れた視点を常に提案し,新しい3次元審美的モデリングの方向性を確立した。
関連論文リスト
- ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。
シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。
我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文 参考訳(メタデータ) (2026-01-12T13:44:14Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。
本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。
ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文 参考訳(メタデータ) (2025-04-23T06:21:11Z) - 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - 3D View Optimization for Improving Image Aesthetics [1.529342790344802]
本稿では,3次元操作を応用した先駆的手法を提案する。
提案手法は, 入力画像の補間を行い, そして外挿画像から3Dシーンを再構成し, カメラパラメータと画像アスペクト比を同定し, 審美性を高めて最高の3Dビューが得られるように最適化する。
論文 参考訳(メタデータ) (2024-05-26T05:59:22Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。