論文の概要: PreciseCam: Precise Camera Control for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2501.12910v1
- Date: Wed, 22 Jan 2025 14:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:50.688538
- Title: PreciseCam: Precise Camera Control for Text-to-Image Generation
- Title(参考訳): PreciseCam:テキスト・画像生成のための精密カメラ制御
- Authors: Edurne Bernal-Berdun, Ana Serrano, Belen Masia, Matheus Gadelha, Yannick Hold-Geoffroy, Xin Sun, Diego Gutierrez,
- Abstract要約: 芸術的な媒体としてのイメージは、アイデアや感情を伝えるために、特定のカメラの角度とレンズの歪みに依存することが多い。
本稿では,写真画像と芸術画像の両方を生成する際に,カメラの正確な制御を可能にする,効率的で汎用的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 13.586200016767794
- License:
- Abstract: Images as an artistic medium often rely on specific camera angles and lens distortions to convey ideas or emotions; however, such precise control is missing in current text-to-image models. We propose an efficient and general solution that allows precise control over the camera when generating both photographic and artistic images. Unlike prior methods that rely on predefined shots, we rely solely on four simple extrinsic and intrinsic camera parameters, removing the need for pre-existing geometry, reference 3D objects, and multi-view data. We also present a novel dataset with more than 57,000 images, along with their text prompts and ground-truth camera parameters. Our evaluation shows precise camera control in text-to-image generation, surpassing traditional prompt engineering approaches. Our data, model, and code are publicly available at https://graphics.unizar.es/projects/PreciseCam2024.
- Abstract(参考訳): 芸術媒体としてのイメージは、アイデアや感情を伝えるために特定のカメラアングルやレンズ歪みに依存することが多いが、現在のテキスト・ツー・イメージモデルではそのような正確な制御は欠落している。
本稿では,写真画像と芸術画像の両方を生成する際に,カメラの正確な制御を可能にする,効率的で汎用的なソリューションを提案する。
事前に定義されたショットに依存する従来の方法とは異なり、我々は4つの単純な外部カメラパラメータと固有のカメラパラメータにのみ依存しており、既存の幾何学、参照3Dオブジェクト、マルチビューデータの必要性を排除している。
また, 57,000枚以上の画像とテキストプロンプト, 地平線カメラパラメータを用いた新しいデータセットも提示した。
本評価では,テキスト・画像生成におけるカメラ制御の精度が従来のプロンプト・エンジニアリング・アプローチを上回っている。
私たちのデータ、モデル、コードはhttps://graphics.unizar.es/projects/PreciseCam2024で公開されています。
関連論文リスト
- CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z) - ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - Unifying Scene Representation and Hand-Eye Calibration with 3D Foundation Models [13.58353565350936]
環境の表現はロボティクスにおける中心的な課題である。
伝統的に、ユーザーはチェッカーボードやエイプリルタグなどの特定の外部マーカーを使用してカメラを校正する必要がある。
本稿では,マニピュレータ搭載RGBカメラを搭載したロボットシステムへの3Dファウンデーション表現の統合を提唱する。
論文 参考訳(メタデータ) (2024-04-17T18:29:32Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。
既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。
我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z) - NOCaL: Calibration-Free Semi-Supervised Learning of Odometry and Camera
Intrinsics [2.298932494750101]
我々はNOCaL, ニューラル・オドメトリー, および光場を用いて, キャリブレーションなしで未確認カメラを解釈できる半教師付き学習アーキテクチャを提案する。
従来のカメラを用いて,NOCaL合成を実演し,キャリブレーションのないオドメトリーと新しいビュージオメトリを実証した。
論文 参考訳(メタデータ) (2022-10-14T00:34:43Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z) - Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。
Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。
本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文 参考訳(メタデータ) (2020-07-30T09:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。