論文の概要: HiddenObjects: Scalable Diffusion-Distilled Spatial Priors for Object Placement
- arxiv url: http://arxiv.org/abs/2604.10675v1
- Date: Sun, 12 Apr 2026 14:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.167479
- Title: HiddenObjects: Scalable Diffusion-Distilled Spatial Priors for Object Placement
- Title(参考訳): HiddenObjects: オブジェクト配置のための拡張拡散拡張された空間的優先順位
- Authors: Marco Schouten, Ioannis Siglidis, Serge Belongie, Dim P. Papadopoulos,
- Abstract要約: 本研究では,自然の場面におけるオブジェクト配置の空間的事前条件を明示的に学習する手法を提案する。
高品質な実環境における高密度オブジェクト配置を評価する,完全自動化およびスケーラブルなフレームワークを提案する。
我々はこれらの先行データを高速な実用的な推論(23万倍高速)のための軽量なモデルに蒸留する。
- 参考スコア(独自算出の注目度): 5.872282538713026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method to learn explicit, class-conditioned spatial priors for object placement in natural scenes by distilling the implicit placement knowledge encoded in text-conditioned diffusion models. Prior work relies either on manually annotated data, which is inherently limited in scale, or on inpainting-based object-removal pipelines, whose artifacts promote shortcut learning. To address these limitations, we introduce a fully automated and scalable framework that evaluates dense object placements on high-quality real backgrounds using a diffusion-based inpainting pipeline. With this pipeline, we construct HiddenObjects, a large-scale dataset comprising 27M placement annotations, evaluated across 27k distinct scenes, with ranked bounding box insertions for different images and object categories. Experimental results show that our spatial priors outperform sparse human annotations on a downstream image editing task (3.90 vs. 2.68 VLM-Judge), and significantly surpass existing placement baselines and zero-shot Vision-Language Models for object placement. Furthermore, we distill these priors into a lightweight model for fast practical inference (230,000x faster).
- Abstract(参考訳): 本研究では,テキスト条件拡散モデルに符号化された暗黙の配置知識を蒸留することにより,自然界におけるオブジェクト配置の明示的でクラス条件付き空間先行を学習する手法を提案する。
従来の作業は手動でアノテートされたデータに依存しており、これは本質的に規模が限られている。
これらの制約に対処するために,拡散型インパインティングパイプラインを用いて,高品質な実環境における高密度オブジェクト配置を評価する,完全に自動化されたスケーラブルなフレームワークを導入する。
このパイプラインにより、27Mの配置アノテーションからなる大規模データセットであるHiddenObjectsを構築し、27kの異なるシーンで評価し、異なる画像やオブジェクトカテゴリに対してランク付けされたバウンディングボックス挿入を行う。
実験の結果, 下流画像編集作業(3.90対2.68 VLM-Judge)では, 空間的先行が粗い人間のアノテーションよりも優れており, 既存の配置ベースラインやオブジェクト配置のためのゼロショット視覚言語モデルを大きく上回っていることがわかった。
さらに,これらの前駆体を高速な実用的推論(23万倍高速)のための軽量なモデルに蒸留する。
関連論文リスト
- FreeInsert: Disentangled Text-Guided Object Insertion in 3D Gaussian Scene without Spatial Priors [69.61116210215471]
FreeInsertは空間配置からオブジェクト生成を分離する新しいフレームワークである。
意味的コヒーレント、空間的正確、視覚的にリアルな3D挿入を実現する。
論文 参考訳(メタデータ) (2025-05-02T14:53:56Z) - OmniEraser: Remove Objects and Their Effects in Images with Paired Video-Frame Data [21.469971783624402]
本稿では,現実的な物体影と反射を伴う10万以上の高品質なサンプルからなる大規模データセットであるVideo4Removalを提案する。
ビデオフレームと市販のビジョンモデルからオブジェクト-バックグラウンドペアを構築することにより、データ取得の作業コストを大幅に削減することができる。
形状的なアーティファクトや意図しないコンテンツを生成するのを避けるために,Object-Background Guidanceを提案する。
我々は,オブジェクトマスクのみを入力として,オブジェクトとその視覚効果をシームレスに除去する新しい手法であるOmniEraserを提案する。
論文 参考訳(メタデータ) (2025-01-13T15:12:40Z) - Imagining the Unseen: Generative Location Modeling for Object Placement [49.71690795831461]
対象物に対する可塑性境界ボックスの予測を学習する生成的位置モデルを開発する。
我々のアプローチはまずイメージとターゲットオブジェクトクラスをトークン化し、次に自動回帰変換器を通して境界ボックス座標をデコードする。
実験により,OPAデータセットの配置精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-10-17T14:00:41Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。