論文の概要: PhotoFlow: Agentic 3D Virtual Photography Missions
- arxiv url: http://arxiv.org/abs/2605.23771v1
- Date: Fri, 22 May 2026 15:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.414283
- Title: PhotoFlow: Agentic 3D Virtual Photography Missions
- Title(参考訳): PhotoFlow:エージェントによる3D仮想写真ミッション
- Authors: Jiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong,
- Abstract要約: PhotoFlowはクローズドループカメラサーチのためのディレクター・リビューア・リフレクターエージェントである。
PhotoFlowは、ワンショット予測、シングルチェーンリフレクション、アンカーバンク選択、ランダム検索において、最強の外部品質調整合成と成功率を達成する。
これは、任意のブレンダーシーンで言語条件の仮想写真を作成するための最初の作業である。
- 参考スコア(独自算出の注目度): 24.105785278409584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, and render the final photograph. Recent progress in vision-language models makes this kind of spatial agent increasingly plausible, but the task stresses two capabilities that remain hard to evaluate together: complex 3D spatial understanding and abstract aesthetic judgment. We introduce PhotoFlow, a Director-Reviewer-Reflector agent for closed-loop camera search. The Director builds a soft photographic blueprint and proposes diverse candidate cameras; the Reviewer combines rule checks, visual critique, and pairwise incumbent selection; and the Reflector converts failures into region memory, dead-zone suppression, and high-explore relocation. We also introduce VPhotoBench, a benchmark of 47 open-license Blender scenes and 141 language-conditioned photography missions spanning subject placement, relational composition, and atmosphere/style. On held-out experiments, PhotoFlow achieves the strongest external quality-alignment composite and success rate among one-shot prediction, single-chain reflection, anchor-bank selection, and random search under a six-round rendering budget. To our knowledge, this is the first work to make language-conditioned virtual photography in arbitrary Blender scenes an executable agent task, and our results show that an LLM-centered spatial agent can already produce strong photographs in a setting designed to challenge both 3D reasoning and aesthetic choice.
- Abstract(参考訳): 仮想写真は、予め選択されたカメラポーズや参照画像なしで準備された3Dシーンに入り、シーン情報と言語意図から適切なショットを推測し、実行可能なカメラパラメータを選択し、最終写真を描画するようにエージェントに依頼する。
視覚言語モデルの最近の進歩により、このような空間的エージェントはますます使いやすくなっているが、このタスクは、複雑な3次元空間的理解と抽象的な美的判断という、一緒に評価するのが困難な2つの能力を強調している。
本稿では,クローズドループカメラサーチのためのディレクター・リビューア・リフレクタエージェントPhotoFlowを紹介する。
ディレクターはソフトな写真用青写真を作成し、様々な候補カメラを提案し、レビュアーはルールチェック、視覚的批判、そしてペアワイズな既存選択を組み合わせ、リフレクターは障害を領域記憶、デッドゾーンの抑制、高度の移動に変換する。
また、47のオープンライセンスのブレンダーシーンと141の言語条件の撮影ミッションのベンチマークであるVPhotoBenchを紹介した。
ホールドアウト実験において、PhotoFlowは、1ショットの予測、単一チェーンのリフレクション、アンカーバンクの選択、ランダム検索において、6ラウンドのレンダリング予算の下で、最強の外部品質調整合成と成功率を達成する。
我々の知る限り、これは任意のブレンダーシーンにおける言語条件付き仮想撮影を実行可能なエージェントタスクとする最初の試みであり、この結果は、LLM中心の空間エージェントが3D推論と美的選択の両方に挑戦するように設計された環境で、既に強力な写真を生成することができることを示している。
関連論文リスト
- PhotoAgent: A Robotic Photographer with Spatial and Aesthetic Understanding [10.434774696873793]
PhotoAgentは、主観的な美的目標を解決可能な幾何学的制約に変換する。
この最初のポーズは、フォトリアリスティックな内部世界モデル内の視覚的反射によって反復的に洗練される。
評価により、PhotoAgentは空間的推論に優れ、最終的な画質が優れていることが確認された。
論文 参考訳(メタデータ) (2026-03-24T04:40:33Z) - HouseTour: A Virtual Real Estate A(I)gent [80.36635722117329]
本研究では,空間認識型3次元カメラ軌道と自然言語要約生成手法であるHouseTourを紹介する。
提案手法は,カメラのポーズに制約された拡散過程によってスムーズな映像トラジェクトリを生成する。
我々は3Dガウススプラッティングを用いて最終映像を合成し、軌道に沿って新しいビューを描画する。
論文 参考訳(メタデータ) (2025-10-20T19:47:35Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - Automatic Camera Trajectory Control with Enhanced Immersion for Virtual Cinematography [23.070207691087827]
実世界のシネマトグラフィーのルールは、監督がカメラをアクターと包括的に同期させることで没入感を生み出すことができることを示している。
この戦略に触発されて,アクターとカメラの3面の同期を可能にするディープカメラ制御フレームワークを提案する。
提案手法は,高品質な没入型撮影映像を定量的かつ質的に生成する。
論文 参考訳(メタデータ) (2023-03-29T22:02:15Z) - Factorized and Controllable Neural Re-Rendering of Outdoor Scene for
Photo Extrapolation [50.00344639039158]
本稿では, 乱雑な屋外インターネット写真コレクションから新たなビューを生成するために, ニューラルリレンダリングモデルを提案する。
また,テクスチャの詳細を補完する新しいリアリズム拡張法を提案し,そのテクスチャの詳細を狭められた画像から外挿したニューラルレンダリング画像に自動的に伝達する。
論文 参考訳(メタデータ) (2022-07-14T13:28:08Z) - PhotoScene: Photorealistic Material and Lighting Transfer for Indoor
Scenes [84.66946637534089]
PhotoSceneは、シーンの入力画像を取得し、高品質な素材と同様の照明を備えたフォトリアリスティックデジタルツインを構築するフレームワークである。
プロシージャ素材グラフを用いてシーン素材をモデル化し、そのようなグラフはフォトリアリスティックおよび解像度非依存の材料を表す。
ScanNet, SUN RGB-D, ストック写真からのオブジェクトとレイアウトの再構築について検討し, 高品質で完全に再現可能な3Dシーンを再現できることを実証した。
論文 参考訳(メタデータ) (2022-07-02T06:52:44Z) - 3D Moments from Near-Duplicate Photos [67.15199743223332]
3D Momentsは、新しい計算写真効果だ。
1枚目から2枚目までのシーンの動きを円滑に補間するビデオを作成する。
本システムは,モーションパララックスとシーンダイナミックスを併用したフォトリアリスティックな時空ビデオを生成する。
論文 参考訳(メタデータ) (2022-05-12T17:56:18Z) - Environment Predictive Coding for Embodied Agents [92.31905063609082]
本稿では,環境レベルの表現を具体化エージェントに学習する自己教師型手法である環境予測符号化を導入する。
GibsonとMatterport3Dのフォトリアリスティックな3D環境に関する実験により、我々の手法は、限られた経験の予算しか持たない課題において、最先端の課題よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-03T23:43:16Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z) - A simulation environment for drone cinematography [7.324046599137339]
環境画像の取得方法,3次元再構成(フォトグラム),前景資産の創出について述べる。
このツールは、フォアグラウンドアセットやイベントダイナミクスに関連するプログラム可能なシナリオとともに、フリーフライとパラメータ可能な標準ショットタイプの両方をサポートする。
論文 参考訳(メタデータ) (2020-10-03T09:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。