論文の概要: SceneDesigner: Controllable Multi-Object Image Generation with 9-DoF Pose Manipulation
- arxiv url: http://arxiv.org/abs/2511.16666v1
- Date: Thu, 20 Nov 2025 18:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.811318
- Title: SceneDesigner: Controllable Multi-Object Image Generation with 9-DoF Pose Manipulation
- Title(参考訳): SceneDesigner:9-DoF Pose操作による制御可能な多対象画像生成
- Authors: Zhenyuan Qin, Xincheng Shuai, Henghui Ding,
- Abstract要約: SceneDesignerは、正確で柔軟な9-DoFポーズ操作の方法である。
新しい表現であるCNOCSマップは、カメラビューから9Dのポーズ情報をエンコードする。
新しいデータセットであるObjectPose9Dは、さまざまなソースの画像と9Dのポーズアノテーションを集約する。
- 参考スコア(独自算出の注目度): 44.8071512209867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable image generation has attracted increasing attention in recent years, enabling users to manipulate visual content such as identity and style. However, achieving simultaneous control over the 9D poses (location, size, and orientation) of multiple objects remains an open challenge. Despite recent progress, existing methods often suffer from limited controllability and degraded quality, falling short of comprehensive multi-object 9D pose control. To address these limitations, we propose SceneDesigner, a method for accurate and flexible multi-object 9-DoF pose manipulation. SceneDesigner incorporates a branched network to the pre-trained base model and leverages a new representation, CNOCS map, which encodes 9D pose information from the camera view. This representation exhibits strong geometric interpretation properties, leading to more efficient and stable training. To support training, we construct a new dataset, ObjectPose9D, which aggregates images from diverse sources along with 9D pose annotations. To further address data imbalance issues, particularly performance degradation on low-frequency poses, we introduce a two-stage training strategy with reinforcement learning, where the second stage fine-tunes the model using a reward-based objective on rebalanced data. At inference time, we propose Disentangled Object Sampling, a technique that mitigates insufficient object generation and concept confusion in complex multi-object scenes. Moreover, by integrating user-specific personalization weights, SceneDesigner enables customized pose control for reference subjects. Extensive qualitative and quantitative experiments demonstrate that SceneDesigner significantly outperforms existing approaches in both controllability and quality. Code is publicly available at https://github.com/FudanCVL/SceneDesigner.
- Abstract(参考訳): 近年,制御可能な画像生成が注目され,ユーザによるアイデンティティやスタイルなどの視覚的コンテンツを操作できるようになった。
しかし、複数のオブジェクトの9Dポーズ(位置、サイズ、方向)を同時に制御することは、未解決の課題である。
近年の進歩にもかかわらず、既存の手法は制限された制御性と劣化した品質に悩まされ、総合的な多目的9Dポーズ制御に欠けることが多い。
これらの制約に対処するため,SceneDesignerを提案する。
SceneDesignerは、事前訓練されたベースモデルに分岐ネットワークを組み込み、カメラビューから9Dのポーズ情報をエンコードする新しい表現であるCNOCSマップを利用する。
この表現は強い幾何学的解釈特性を示し、より効率的で安定した訓練をもたらす。
トレーニングを支援するために、私たちはObjectPose9Dという新しいデータセットを構築しました。
本研究では,低周波ポーズにおけるデータ不均衡問題,特に低周波ポーズにおける性能劣化に対処するため,2段目は報酬に基づく目標値の再バランスデータを用いてモデルを微調整する強化学習を用いた2段目トレーニング戦略を導入する。
複雑な多目的シーンにおけるオブジェクト生成や概念の混乱を緩和する手法であるDistangled Object Smplingを提案する。
さらに、ユーザ固有のパーソナライズ重みを統合することで、SceneDesignerは参照対象に対するカスタマイズされたポーズ制御を可能にする。
SceneDesignerは、制御性と品質の両方において、既存のアプローチを大きく上回っている。
コードはhttps://github.com/FudanCVL/SceneDesigner.comで公開されている。
関連論文リスト
- One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation [10.416673784744281]
本稿では,複数の参照画像特徴を対応オブジェクトにマージする重み付きマージ手法を提案する。
提案手法は,マルチオブジェクト・パーソナライズされた画像生成のためのConcept101データセットとDreamBoothデータセットの最先端技術よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T15:04:13Z) - Customizing Text-to-Image Diffusion with Object Viewpoint Control [53.621518249820745]
テキストから画像への拡散モデルのカスタマイズにおいて、オブジェクト視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、カスタムオブジェクトのプロパティを変更し、テキストプロンプトを通じて、さまざまなバックグラウンドシーンでそれを生成することができます。
本稿では,対象視点からレンダリングした3次元オブジェクトの特徴に拡散過程を規定する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale
Consistency [43.09728251735362]
2Dオブジェクト境界ボックスから6DoFオブジェクトポーズを得るための2ステップポーズ推定フレームワークを提案する。
最初のステップでは、フレームワークはオブジェクトを実際のデータと合成データからセグメンテーションすることを学ぶ。
第2のステップでは,dsc-posenetという,デュアルスケールなポーズ推定ネットワークを設計する。
提案手法は,合成データに基づいて訓練した最先端のモデルよりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2021-04-08T10:19:35Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。