論文の概要: PhotoAgent: A Robotic Photographer with Spatial and Aesthetic Understanding
- arxiv url: http://arxiv.org/abs/2603.22796v1
- Date: Tue, 24 Mar 2026 04:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.311074
- Title: PhotoAgent: A Robotic Photographer with Spatial and Aesthetic Understanding
- Title(参考訳): PhotoAgent:空間的・美的理解を備えたロボットフォトグラファー
- Authors: Lirong Che, Zhenfeng Gan, Yanbo Chen, Junbo Tan, Xueqian Wang,
- Abstract要約: PhotoAgentは、主観的な美的目標を解決可能な幾何学的制約に変換する。
この最初のポーズは、フォトリアリスティックな内部世界モデル内の視覚的反射によって反復的に洗練される。
評価により、PhotoAgentは空間的推論に優れ、最終的な画質が優れていることが確認された。
- 参考スコア(独自算出の注目度): 10.434774696873793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents for creative tasks like photography must bridge the semantic gap between high-level language commands and geometric control. We introduce PhotoAgent, an agent that achieves this by integrating Large Multimodal Models (LMMs) reasoning with a novel control paradigm. PhotoAgent first translates subjective aesthetic goals into solvable geometric constraints via LMM-driven, chain-of-thought (CoT) reasoning, allowing an analytical solver to compute a high-quality initial viewpoint. This initial pose is then iteratively refined through visual reflection within a photorealistic internal world model built with 3D Gaussian Splatting (3DGS). This ``mental simulation'' replaces costly and slow physical trial-and-error, enabling rapid convergence to aesthetically superior results. Evaluations confirm that PhotoAgent excels in spatial reasoning and achieves superior final image quality.
- Abstract(参考訳): 写真のような創造的なタスクのエージェントは、ハイレベルな言語コマンドと幾何学的制御の間の意味的なギャップを埋めなければならない。
本稿では,LMM(Large Multimodal Models)推論と新たな制御パラダイムを統合することで,これを実現するエージェントであるPhotoAgentを紹介する。
PhotoAgentはまず、主観的な美的目標をLMM駆動のチェーン・オブ・シント(CoT)推論を通じて解決可能な幾何学的制約に変換する。
この最初のポーズは、3Dガウススプラッティング(3DGS)で構築されたフォトリアリスティックな内部世界モデル内の視覚反射によって反復的に洗練される。
この `mental Simulation'' は高価で遅い物理的試行錯誤に取って代わり、素早く収束して審美的に優れた結果が得られる。
評価により、PhotoAgentは空間的推論に優れ、最終的な画質が優れていることが確認される。
関連論文リスト
- Zero-Shot Robotic Manipulation via 3D Gaussian Splatting-Enhanced Multimodal Retrieval-Augmented Generation [24.066642344610873]
既存のエンドツーエンドのロボット操作アプローチでは、限られたデータと弱い解釈性のために、見えないオブジェクトやタスクへの一般化が欠如していることが多い。
ゼロショットロボット操作のための3次元ガウス型マルチモーダル検索生成フレームワークRobMRAGを提案する。
提案手法は, 最高性能のゼロショットベースラインと比較して7.76%, 最先端の教師付きベースラインに比べて6.54%向上する。
論文 参考訳(メタデータ) (2026-02-28T06:48:05Z) - Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning [56.24016465596292]
視覚的メタファーは、抽象概念をインパクトのある視覚的レトリックに変換するために、クロスドメインなセマンティックフュージョンを用いて、人間の創造性の高階形式を構成する。
本稿では,参照画像から「創造的本質」を自律的に分離し,その抽象論理をユーザ特定対象に再物質化する,視覚メタファー伝達(VMT)の課題を紹介する。
提案手法は, メタファーの整合性, アナロジーの適切性, 視覚的創造性においてSOTAのベースラインを著しく上回り, 広告・メディアにおける高度にインパクトのある創造的アプリケーションを自動化するための道を開いた。
論文 参考訳(メタデータ) (2026-02-01T17:01:36Z) - OPFormer: Object Pose Estimation leveraging foundation model with geometric encoding [2.1987601456703474]
オブジェクト検出とポーズ推定をシームレスに統合する統合されたエンドツーエンドフレームワークを導入する。
当システムではまずCNOS検出器を用いて対象物体のローカライズを行う。
検出毎に、新しいポーズ推定モジュールOPFormerが正確な6Dポーズを推測する。
論文 参考訳(メタデータ) (2025-11-16T14:19:52Z) - TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning [30.018325742295243]
OpenAI o3は問題解決のためにイメージを変換するツールを作成、運用することができる。
ビジュアル検索のテストは、ローカライズやトリミングといった基本的な操作のみであり、より複雑で動的で、ツールに依存した推論に関する洞察はほとんど提供されない。
エージェント思考とイメージを13種類のタスクで評価するための総合的なベンチマークである textbfTIR-Bench を紹介する。
論文 参考訳(メタデータ) (2025-11-03T18:40:17Z) - From Evidence to Verdict: An Agent-Based Forensic Framework for AI-Generated Image Detection [19.240335260177382]
AIFo(Agent-based Image Forensics)は、マルチエージェントコラボレーションによる人間の法医学的調査をエミュレートする、トレーニング不要のフレームワークである。
従来の手法とは異なり,本フレームワークでは,リバース画像検索,メタデータ抽出,事前学習型分類器,VLM解析など,一連の法医学的ツールを用いている。
我々の総合的な評価は6000のイメージに及び、現代の生成プラットフォームや多様なオンラインソースの画像を含む現実世界のシナリオに挑戦する。
論文 参考訳(メタデータ) (2025-10-31T18:36:49Z) - PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images [58.73779101355669]
PixelCraftは、高忠実度画像処理と、構造化画像に対する柔軟な視覚的推論のための、新しいマルチエージェントシステムである。
この基盤の上に構築されたPixelCraftは、ツールの選択、エージェントの議論、自己批判といった3段階の動的なワークフローを通じて、視覚的推論を容易にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:49Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - Geometric Processing for Image-based 3D Object Modeling [2.6397379133308214]
本稿では,幾何処理の3つの主要構成要素の最先端手法について紹介する:(1)ジオレファレンス; 2)画像密度マッチング3)テクスチャマッピング。
3Dオブジェクト再構成ワークフローにおける画像の大部分が自動化された幾何処理は、現実的な3Dモデリングの重要な部分となっている。
論文 参考訳(メタデータ) (2021-06-27T18:33:30Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。