論文の概要: Imagining the Unseen: Generative Location Modeling for Object Placement
- arxiv url: http://arxiv.org/abs/2410.13564v2
- Date: Tue, 07 Oct 2025 09:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:19.393153
- Title: Imagining the Unseen: Generative Location Modeling for Object Placement
- Title(参考訳): Imagining the Unseen: Generative Location Modeling for Object Placement
- Authors: Jooyeol Yun, Davide Abati, Mohamed Omran, Jaegul Choo, Amirhossein Habibian, Auke Wiggers,
- Abstract要約: 対象物に対する可塑性境界ボックスの予測を学習する生成的位置モデルを開発する。
我々のアプローチはまずイメージとターゲットオブジェクトクラスをトークン化し、次に自動回帰変換器を通して境界ボックス座標をデコードする。
実験により,OPAデータセットの配置精度が向上することが確認された。
- 参考スコア(独自算出の注目度): 49.71690795831461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Location modeling, or determining where non-existing objects could feasibly appear in a scene, has the potential to benefit numerous computer vision tasks, from automatic object insertion to scene creation in virtual reality. Yet, this capability remains largely unexplored to date. In this paper, we develop a generative location model that, given an object class and an image, learns to predict plausible bounding boxes for such an object. Our approach first tokenizes the image and target object class, then decodes bounding box coordinates through an autoregressive transformer. This formulation effectively addresses two core challenges in locatio modeling: the inherent one-to-many nature of plausible locations, and the sparsity of existing location modeling datasets, where fewer than 1% of valid placements are labeled. Furthermore, we incorporate Direct Preference Optimization to leverage negative labels, refining the spatial predictions. Empirical evaluations reveal that our generative location model achieves superior placement accuracy on the OPA dataset as compared to discriminative baselines and image composition approaches. We further test our model in the context of object insertion, where it proposes locations for an off-the-shelf inpainting model to render objects. In this respect, our proposal exhibits improved visual coherence relative to state-of-the-art instruction-tuned editing methods, demonstrating a high-performing location model's utility in a downstream application.
- Abstract(参考訳): 位置モデリング、または既存のオブジェクトがシーンに現れる可能性を決定することは、自動的なオブジェクト挿入からバーチャルリアリティーにおけるシーン生成まで、多数のコンピュータビジョンタスクに利益をもたらす可能性がある。
しかし、この能力は現在までほとんど探索されていない。
本稿では、オブジェクトクラスと画像が与えられた場合、そのようなオブジェクトに対する可塑性境界ボックスの予測を学習する生成的位置モデルを開発する。
我々のアプローチはまずイメージとターゲットオブジェクトクラスをトークン化し、次に自動回帰変換器を通して境界ボックス座標をデコードする。
この定式化は、ロケーショモデリングにおける2つの主要な課題に効果的に対処する: 可塑性位置の1対多の性質と、有効配置の1%未満がラベル付けされている既存の位置モデリングデータセットの空間性である。
さらに、直接選好最適化を導入し、負のラベルを活用し、空間予測を精査する。
実験による評価の結果,OPAデータセット上の位置推定精度は,識別ベースラインや画像合成手法に比べて優れていた。
さらに、オブジェクト挿入の文脈で、オブジェクトを描画するオフザシェルフ塗装モデルの場所を提案する。
この点に関して,提案手法は最先端の命令調整編集手法と比較して視覚的コヒーレンスを向上し,下流アプリケーションにおける高性能な位置モデルの有用性を示す。
関連論文リスト
- Controllable 3D Placement of Objects with Scene-Aware Diffusion Models [6.020146107338903]
粗い物体マスクと組み合わせた視覚マップは高品質な物体配置に十分であることを示す。
位置制御と外観制御を組み合わせることで、既存の物体をシーン内の正確な位置に配置できることを示す。
論文 参考訳(メタデータ) (2025-06-26T16:31:39Z) - ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。
我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。
人間の評価によると、Add-itは80%以上のケースで好まれる。
論文 参考訳(メタデータ) (2024-11-11T18:50:09Z) - EraseDraw: Learning to Insert Objects by Erasing Them from Images [24.55843674256795]
以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。
我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。
様々な領域にまたがる多様な挿入プロンプトと画像について,説得力のある結果を示す。
論文 参考訳(メタデータ) (2024-08-31T18:37:48Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - TopNet: Transformer-based Object Placement Network for Image Compositing [43.14411954867784]
背景画像の局所的な手がかりは、特定の位置/スケールにオブジェクトを置くことの互換性を決定するために重要である。
本稿では,トランスモジュールを用いてオブジェクト特徴とすべてのローカル背景特徴の相関関係を学習することを提案する。
我々の新しい定式化は、1つのネットワークフォワードパスにおけるすべての位置/スケールの組み合わせの妥当性を示す3Dヒートマップを生成する。
論文 参考訳(メタデータ) (2023-04-06T20:58:49Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Towards Self-Supervised Category-Level Object Pose and Size Estimation [121.28537953301951]
本研究は,一深度画像からのカテゴリレベルのオブジェクトポーズとサイズ推定のための自己教師型フレームワークを提案する。
我々は、同じ形状の点雲における幾何学的整合性を利用して自己超越する。
論文 参考訳(メタデータ) (2022-03-06T06:02:30Z) - Localizing Infinity-shaped fishes: Sketch-guided object localization in
the wild [5.964436882344729]
本研究はスケッチ誘導オブジェクトローカライゼーションの問題について考察する。
人間のスケッチは、自然画像におけるオブジェクトのローカライゼーションを実行するクエリとして使用される。
ハードな分類を避けたスケッチ条件のDETRアーキテクチャを提案する。
実験により,我々のモデルとその変種が過去の最先端結果よりも著しく進歩していることが実証された。
論文 参考訳(メタデータ) (2021-09-24T10:39:43Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。