論文の概要: Compass Control: Multi Object Orientation Control for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2504.06752v2
- Date: Thu, 10 Apr 2025 04:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:25:02.436586
- Title: Compass Control: Multi Object Orientation Control for Text-to-Image Generation
- Title(参考訳): コンパス制御:テキスト・画像生成のための多目的指向制御
- Authors: Rishubh Parihar, Vaibhav Agrawal, Sachidanand VS, R. Venkatesh Babu,
- Abstract要約: テキストと画像の拡散モデルを制御する既存のアプローチは、強力ではあるが、明示的な3Dオブジェクト中心制御を許さない。
テキスト・画像拡散モデルにおける多目的方向制御の問題に対処する。
これにより、各オブジェクトに対して正確な向き制御を備えた多様なマルチオブジェクトシーンを生成することができる。
- 参考スコア(独自算出の注目度): 24.4172525865806
- License:
- Abstract: Existing approaches for controlling text-to-image diffusion models, while powerful, do not allow for explicit 3D object-centric control, such as precise control of object orientation. In this work, we address the problem of multi-object orientation control in text-to-image diffusion models. This enables the generation of diverse multi-object scenes with precise orientation control for each object. The key idea is to condition the diffusion model with a set of orientation-aware \textbf{compass} tokens, one for each object, along with text tokens. A light-weight encoder network predicts these compass tokens taking object orientation as the input. The model is trained on a synthetic dataset of procedurally generated scenes, each containing one or two 3D assets on a plain background. However, direct training this framework results in poor orientation control as well as leads to entanglement among objects. To mitigate this, we intervene in the generation process and constrain the cross-attention maps of each compass token to its corresponding object regions. The trained model is able to achieve precise orientation control for a) complex objects not seen during training and b) multi-object scenes with more than two objects, indicating strong generalization capabilities. Further, when combined with personalization methods, our method precisely controls the orientation of the new object in diverse contexts. Our method achieves state-of-the-art orientation control and text alignment, quantified with extensive evaluations and a user study.
- Abstract(参考訳): テキストと画像の拡散モデルを制御する既存のアプローチは、強力ではあるが、オブジェクト指向の正確な制御のような、明示的な3Dオブジェクト中心制御を許さない。
本研究では,テキスト・画像拡散モデルにおける多目的方向制御の問題に対処する。
これにより、各オブジェクトに対して正確な向き制御を備えた多様なマルチオブジェクトシーンを生成することができる。
鍵となる考え方は、拡散モデルに、各オブジェクトに対して1つずつ、向きを意識した \textbf{compass} トークンと、テキストトークンをセットで条件付けることである。
軽量エンコーダネットワークは、これらのコンパストークンを入力としてオブジェクト向きに予測する。
モデルは、手続き的に生成されたシーンの合成データセットに基づいてトレーニングされ、それぞれが1つか2つの3Dアセットをプレーンな背景に含んでいる。
しかし、このフレームワークを直接訓練すると、オブジェクト指向制御が貧弱になり、オブジェクト間の絡み合いにつながる。
これを緩和するために、我々は生成プロセスに介入し、各コンパストークンのクロスアテンションマップを対応する対象領域に制限する。
トレーニングされたモデルは、正確な方向制御を達成することができる
a) 訓練中に見えない複雑な物体
b)2つ以上のオブジェクトを持つ複数オブジェクトのシーンは、強力な一般化能力を示す。
さらに, パーソナライズ手法と組み合わせることで, 多様なコンテキストにおいて, 新しいオブジェクトの向きを正確に制御する。
提案手法は,広範囲な評価とユーザスタディによって定量化され,最先端の方向性制御とテキストアライメントを実現する。
関連論文リスト
- Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:58:43Z) - Customizing Text-to-Image Diffusion with Object Viewpoint Control [53.621518249820745]
テキストから画像への拡散モデルのカスタマイズにおいて、オブジェクト視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、カスタムオブジェクトのプロパティを変更し、テキストプロンプトを通じて、さまざまなバックグラウンドシーンでそれを生成することができます。
本稿では,対象視点からレンダリングした3次元オブジェクトの特徴に拡散過程を規定する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation
Transforms [22.91890127146324]
オブジェクト指向は、多くのパッキングやアセンブリタスクの自動化において重要なコンポーネントである。
我々は、四元数でパラメータ化された3次元回転を推定するために、ディープニューラルネットワークを訓練する。
次に、2つの深度画像間の推定回転に基づいて、トレーニングされたネットワークを比例制御器で再配置する。
論文 参考訳(メタデータ) (2021-05-29T08:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。