Fugu-MT 論文翻訳(概要): Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field

論文の概要: Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field

arxiv url: http://arxiv.org/abs/2602.20363v1
Date: Mon, 23 Feb 2026 21:08:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.533728
Title: Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field
Title（参考訳）: 3次元美的視野を用いた美的カメラ視点の提案
Authors: Sheyang Tang, Armin Shafiee Sarvestani, Jialu Xu, Xiaoyu Xu, Zhou Wang,
Abstract要約: 本稿では3次元の立体的美的推論を可能にする3次元美的場の概念を紹介した。粗い視点サンプリングと勾配に基づく精錬を組み合わせた2段階探索パイプラインを提案する。提案手法は,既存の手法に比べ,フレーミングとコンポジションが優れている視点を常に提案する。
参考スコア（独自算出の注目度）: 14.117856349347305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The aesthetic quality of a scene depends strongly on camera viewpoint. Existing approaches for aesthetic viewpoint suggestion are either single-view adjustments, predicting limited camera adjustments from a single image without understanding scene geometry, or 3D exploration approaches, which rely on dense captures or prebuilt 3D environments coupled with costly reinforcement learning (RL) searches. In this work, we introduce the notion of 3D aesthetic field that enables geometry-grounded aesthetic reasoning in 3D with sparse captures, allowing efficient viewpoint suggestions in contrast to costly RL searches. We opt to learn this 3D aesthetic field using a feedforward 3D Gaussian Splatting network that distills high-level aesthetic knowledge from a pretrained 2D aesthetic model into 3D space, enabling aesthetic prediction for novel viewpoints from only sparse input views. Building on this field, we propose a two-stage search pipeline that combines coarse viewpoint sampling with gradient-based refinement, efficiently identifying aesthetically appealing viewpoints without dense captures or RL exploration. Extensive experiments show that our method consistently suggests viewpoints with superior framing and composition compared to existing approaches, establishing a new direction toward 3D-aware aesthetic modeling.
Abstract（参考訳）: シーンの美的品質は、カメラの視点に強く依存する。既存の美的視点提案のアプローチは、シーン幾何学を理解せずに単一の画像から限定的なカメラ調整を予測する一視点調整や、高密度のキャプチャや3D環境に依存した3D探索アプローチ、高価な強化学習(RL)探索などである。本研究では,3次元の立体的立体的美的推論を可能にする3次元美的場の概念を導入し,高コストなRL探索とは対照的に,効率的な視点提案を可能にする。トレーニング済みの2次元審美モデルから高レベルの審美的知識を3次元空間に蒸留するフィードフォワード3Dガウススプラッティングネットワークを用いて,この3次元美学分野を学習し,スパースインプットビューのみからの新規視点の審美的予測を可能にする。そこで本研究では、粗い視点サンプリングと勾配に基づく改善を組み合わせた2段階探索パイプラインを提案し、高密度キャプチャやRL探索を伴わずに、審美的に魅力的な視点を効率よく同定する。広汎な実験により,本手法は既存のアプローチに比べてフレーミングや構成に優れた視点を常に提案し,新しい3次元審美的モデリングの方向性を確立した。

関連論文リスト

ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文参考訳（メタデータ） (2026-01-12T13:44:14Z)
TUN3D: Towards Real-World Scene Understanding from Unposed Images [11.23080017635425]
TUN3Dは、実際のスキャンにおいて、関節配置推定と3次元物体検出に対処する新しい手法である。地上カメラのポーズや深度監視は必要ない。 3つの挑戦的なシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-09-23T20:24:07Z)
SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。 SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文参考訳（メタデータ） (2025-05-17T13:05:13Z)
Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。 ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文参考訳（メタデータ） (2025-04-23T06:21:11Z)
3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文参考訳（メタデータ） (2024-08-12T13:53:40Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
3D View Optimization for Improving Image Aesthetics [1.529342790344802]
本稿では,3次元操作を応用した先駆的手法を提案する。提案手法は, 入力画像の補間を行い, そして外挿画像から3Dシーンを再構成し, カメラパラメータと画像アスペクト比を同定し, 審美性を高めて最高の3Dビューが得られるように最適化する。
論文参考訳（メタデータ） (2024-05-26T05:59:22Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)
Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。我々のモデルはすべての最先端の代替品を著しく上回ります。
論文参考訳（メタデータ） (2022-06-08T17:55:50Z)
From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。 3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文参考訳（メタデータ） (2021-07-30T02:00:06Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。