論文の概要: Camera Control for Text-to-Image Generation via Learning Viewpoint Tokens
- arxiv url: http://arxiv.org/abs/2604.19954v1
- Date: Tue, 21 Apr 2026 20:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.773352
- Title: Camera Control for Text-to-Image Generation via Learning Viewpoint Tokens
- Title(参考訳): 視点トークンの学習によるテキスト・画像生成のためのカメラ制御
- Authors: Xinxuan Lu, Charless Fowlkes, Alexander C. Berg,
- Abstract要約: パラメトリックカメラトークンの学習によるテキスト・画像生成におけるグローバルなシーン理解を伴う高精度カメラ制御のためのフレームワークを提案する。
評価されたデータセット上での視点条件付きテキスト・ツー・イメージ生成のための微調整画像生成モデルを提案する。
本手法は,画像品質を保ちながら最先端の精度を実現し,忠実度を向上する。
- 参考スコア(独自算出の注目度): 44.388801834852785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current text-to-image models struggle to provide precise camera control using natural language alone. In this work, we present a framework for precise camera control with global scene understanding in text-to-image generation by learning parametric camera tokens. We fine-tune image generation models for viewpoint-conditioned text-to-image generation on a curated dataset that combines 3D-rendered images for geometric supervision and photorealistic augmentations for appearance and background diversity. Qualitative and quantitative experiments demonstrate that our method achieves state-of-the-art accuracy while preserving image quality and prompt fidelity. Unlike prior methods that overfit to object-specific appearance correlations, our viewpoint tokens learn factorized geometric representations that transfer to unseen object categories. Our work shows that text-vision latent spaces can be endowed with explicit 3D camera structure, offering a pathway toward geometrically-aware prompts for text-to-image generation. Project page: https://randdl.github.io/viewtoken_control/
- Abstract(参考訳): 現在のテキスト・ツー・イメージモデルは、自然言語だけで正確なカメラ制御を提供するのに苦労している。
本研究では,パラメトリックカメラトークンの学習によるテキスト・ツー・イメージ生成におけるグローバルなシーン理解を伴う,正確なカメラ制御のためのフレームワークを提案する。
我々は、3次元レンダリング画像と幾何学的監督と、外観と背景の多様性のためのフォトリアリスティックな拡張を組み合わせたキュレートデータセット上で、視点条件付きテキスト・画像生成のための微調整画像生成モデルを提案する。
定性的かつ定量的な実験により,画像品質を保ち,忠実度を早急に保ちながら,最先端の精度を達成できることが実証された。
オブジェクト固有の外観相関に過度に適合する従来の方法とは異なり、視点トークンは未知のオブジェクトカテゴリに遷移する分解された幾何学的表現を学習する。
本研究は,テキスト・ツー・イメージ・ジェネレーションのための幾何学的に認識可能なプロンプトへの道筋として,テキスト・ビジョン・ラテント・スペースを明示的な3次元カメラ構造で実現可能であることを示す。
プロジェクトページ: https://randdl.github.io/viewtoken_control/
関連論文リスト
- Controllable 3D Object Generation with Single Image Prompt [2.4622211579286133]
3Dオブジェクト生成タスクは、コンピュータビジョンで最も急速に成長しているセグメントの1つである。
テキスト・ツー・イメージ生成モデルは、テキスト・インバージョンを使用して、擬似テキストの埋め込み空間において対象オブジェクトの概念やスタイルを学ぶ。
筆者らは,(1)テキスト変換のない3Dオブジェクトを生成するオフザシェルフイメージアダプタを用いて,深度,ポーズ,テキストなどの条件を制御し,(2)深度条件付きウォームアップ戦略により3D一貫性を向上する手法を提案する。
論文 参考訳(メタデータ) (2025-11-27T08:03:56Z) - UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation [51.31795451147935]
本稿では,単一のピクセル間拡散フレームワーク内での視覚的理解と視覚的生成を支援する統合生成モデルを提案する。
私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。
画像間合成と画像間理解の実験は、強いモーダルアライメントを示す。
論文 参考訳(メタデータ) (2025-11-21T03:02:10Z) - Articulate3D: Zero-Shot Text-Driven 3D Object Posing [38.75075284385844]
本稿では,言語制御による3Dアセットの提示を目的とした,トレーニング不要なArticulate3Dを提案する。
我々は、入力画像に条件付けされたターゲット画像とテキスト命令を作成するために、強力な画像生成装置を変更する。
次に、マルチビューポーズ最適化ステップを通じて、メッシュをターゲットイメージに合わせる。
論文 参考訳(メタデータ) (2025-08-26T17:59:17Z) - GenSpace: Benchmarking Spatially-Aware Image Generation [76.98817635685278]
人間は直感的に、写真のために3D空間でシーンを作成し、配置する。
高度なAI画像生成者は、テキストや画像プロンプトから画像を作成する際に、同様の3D空間認識を備えたシーンを計画できるだろうか?
我々は、現在の画像生成モデルの空間的認識を評価するための新しいベンチマークと評価パイプラインであるGenSpaceを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:59:26Z) - PreciseCam: Precise Camera Control for Text-to-Image Generation [13.586200016767794]
芸術的な媒体としてのイメージは、アイデアや感情を伝えるために、特定のカメラの角度とレンズの歪みに依存することが多い。
本稿では,写真画像と芸術画像の両方を生成する際に,カメラの正確な制御を可能にする,効率的で汎用的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-22T14:37:01Z) - Learning Continuous 3D Words for Text-to-Image Generation [44.210565557606465]
本稿では,画像中の複数の属性の微粒化制御をユーザに提供するアプローチを提案する。
本手法は,複数の連続した3Dワードとテキスト記述を同時に行うことで,画像生成を条件付けることができる。
論文 参考訳(メタデータ) (2024-02-13T18:34:10Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。