論文の概要: CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching
- arxiv url: http://arxiv.org/abs/2511.21024v1
- Date: Wed, 26 Nov 2025 03:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.951229
- Title: CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching
- Title(参考訳): カメラマスター:写真リタッチのための統一カメラセマンティックパラメータ制御
- Authors: Qirui Yang, Yang Yang, Ying Zeng, Xiaobin Hu, Bo Li, Huanjing Yue, Jingyu Yang, Peng-Tao Jiang,
- Abstract要約: 画像修正のための統合カメラ対応フレームワークであるCameraMasterを提案する。
キーとなるアイデアは、カメラディレクティブを明示的に分離し、2つの重要な情報ストリームを統合することだ。
CameraMasterは最初にカメラパラメータの埋め込みを使用して、カメラディレクティブとコンテンツセマンティクスの両方を変調する。
さらに、ディレクティブとカメラの埋め込みは、時間埋め込みに条件付けおよびゲーティング信号として注入され、統一された層ワイド変調が可能である。
- 参考スコア(独自算出の注目度): 39.53114319753069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided diffusion models have greatly advanced image editing and generation. However, achieving physically consistent image retouching with precise parameter control (e.g., exposure, white balance, zoom) remains challenging. Existing methods either rely solely on ambiguous and entangled text prompts, which hinders precise camera control, or train separate heads/weights for parameter adjustment, which compromises scalability, multi-parameter composition, and sensitivity to subtle variations. To address these limitations, we propose CameraMaster, a unified camera-aware framework for image retouching. The key idea is to explicitly decouple the camera directive and then coherently integrate two critical information streams: a directive representation that captures the photographer's intent, and a parameter embedding that encodes precise camera settings. CameraMaster first uses the camera parameter embedding to modulate both the camera directive and the content semantics. The modulated directive is then injected into the content features via cross-attention, yielding a strongly camera-sensitive semantic context. In addition, the directive and camera embeddings are injected as conditioning and gating signals into the time embedding, enabling unified, layer-wise modulation throughout the denoising process and enforcing tight semantic-parameter alignment. To train and evaluate CameraMaster, we construct a large-scale dataset of 78K image-prompt pairs annotated with camera parameters. Extensive experiments show that CameraMaster produces monotonic and near-linear responses to parameter variations, supports seamless multi-parameter composition, and significantly outperforms existing methods.
- Abstract(参考訳): テキスト誘導拡散モデルでは画像編集と生成が大幅に進歩している。
しかし、正確なパラメータ制御(例えば、露出、ホワイトバランス、ズーム)で物理的に一貫したイメージリタッチを実現することは、依然として困難である。
既存の方法は、正確なカメラ制御を妨げる曖昧さと絡み合ったテキストプロンプトにのみ依存するか、パラメータ調整のために個別のヘッド/ウェイトを訓練し、スケーラビリティ、マルチパラメータ構成、微妙なバリエーションに対する感受性を損なう。
これらの制約に対処するため、画像修正のための統合カメラ対応フレームワークであるCameraMasterを提案する。
重要なアイデアは、カメラディレクティブを明示的に分離し、2つの重要な情報ストリームをコヒーレントに統合することである。
CameraMasterは最初にカメラパラメータの埋め込みを使用して、カメラディレクティブとコンテンツセマンティクスの両方を変調する。
変調ディレクティブは、クロスアテンションを介してコンテンツ機能に注入され、カメラに敏感なセマンティックコンテキストが得られる。
さらに、ディレクティブとカメラの埋め込みは、時間埋め込みに条件付けおよびゲーティング信号として注入され、復調プロセス全体を通して統一された層ワイド変調が可能となり、密接なセマンティックパラメータアライメントが実施される。
CameraMasterを訓練し、評価するために、カメラパラメータを付加した78Kイメージプロンプト対の大規模データセットを構築した。
大規模な実験により、CameraMasterはパラメータの変動に対する単調でニアリニアな応答を生成し、シームレスなマルチパラメータ合成をサポートし、既存の手法よりも大幅に優れていることが示された。
関連論文リスト
- Generative Photographic Control for Scene-Consistent Video Cinematic Editing [75.45726688666083]
CineCtrlはプロのカメラパラメータを細かく制御する最初の映像編集フレームワークである。
本稿では、カメラの動きを写真入力から切り離すための分離されたクロスアテンション機構を提案する。
本モデルでは,ユーザの指定した写真カメラ効果を正確に制御した高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2025-11-17T03:17:23Z) - CamCloneMaster: Enabling Reference-based Camera Control for Video Generation [39.68297612349062]
CamCloneMasterは、カメラパラメータやテストタイムの微調整を必要とせずに、リファレンスビデオからカメラの動きを再現できるフレームワークである。
本稿では,カメラクローン学習のための大規模合成データセットについて述べる。
論文 参考訳(メタデータ) (2025-06-03T17:59:02Z) - LiFCal: Online Light Field Camera Calibration via Bundle Adjustment [38.2887165481751]
LiFCalは、MLAベースの光フィールドカメラのためのオンラインキャリブレーションパイプラインである。
正確な校正対象のない移動カメラシーケンスからモデルパラメータを正確に決定する。
ターゲットのないシーンに適用可能で、完全な継続的パイプラインでオンラインに実装されている。
論文 参考訳(メタデータ) (2024-08-21T15:04:49Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーがコンテンツをより正確に作成し、編集できるようにするため、制御性はビデオ生成において重要な役割を果たす。
しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの制御を欠いている。
我々は、ビデオ拡散モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z) - MC-NeRF: Multi-Camera Neural Radiance Fields for Multi-Camera Image Acquisition Systems [22.494866649536018]
ニューラル・ラジアンス・フィールド(NeRF)は3次元シーン表現にマルチビュー・イメージを使用し、顕著な性能を示す。
以前のNeRFベースの手法のほとんどは、ユニークなカメラを前提としており、マルチカメラのシナリオをめったに考慮していない。
提案するMC-NeRFは,内在パラメータと外在パラメータの両方を,NeRFと併用して共同最適化する手法である。
論文 参考訳(メタデータ) (2023-09-14T16:40:44Z) - CamP: Camera Preconditioning for Neural Radiance Fields [56.46526219931002]
NeRFは、オブジェクトと大規模シーンの高忠実度3Dシーン再構成を得るために最適化することができる。
外部および固有のカメラパラメータは通常、NeRFの前処理ステップとしてStructure-from-Motion (SfM)法を用いて推定される。
本稿では,カメラパラメータ間の相関をなくし,その効果を正規化するホワイトニング変換を代用問題として提案する。
論文 参考訳(メタデータ) (2023-08-21T17:59:54Z) - SceneCalib: Automatic Targetless Calibration of Cameras and Lidars in
Autonomous Driving [10.517099201352414]
SceneCalibは、複数のカメラとライダーセンサーを含むシステムにおいて、外在パラメータと内在パラメータを同時に自己校正する新しい方法である。
我々は,カメラ画像とライダー点雲との明示的な対応を必要としない完全自動方式で問題を解決する。
論文 参考訳(メタデータ) (2023-04-11T23:02:16Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。