論文の概要: CObL: Toward Zero-Shot Ordinal Layering without User Prompting
- arxiv url: http://arxiv.org/abs/2508.08498v1
- Date: Mon, 11 Aug 2025 22:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.242844
- Title: CObL: Toward Zero-Shot Ordinal Layering without User Prompting
- Title(参考訳): CObL: ユーザプロンプトを使わずに、ゼロショットの通常の階層化を目指す
- Authors: Aneel Damaraju, Dean Hazineh, Todd Zickler,
- Abstract要約: コンカレント・オブジェクト・レイヤ(CObL)という拡散型アーキテクチャを導入する。
CObL はオブジェクト層を並列に生成し、Stable Diffusion を自然オブジェクトの先駆体として使用する。
ゼロショットは、様々な種類の新しい物体を持つ現実世界のタブレットの写真に一般化される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision benefits from grouping pixels into objects and understanding their spatial relationships, both laterally and in depth. We capture this with a scene representation comprising an occlusion-ordered stack of "object layers," each containing an isolated and amodally-completed object. To infer this representation from an image, we introduce a diffusion-based architecture named Concurrent Object Layers (CObL). CObL generates a stack of object layers in parallel, using Stable Diffusion as a prior for natural objects and inference-time guidance to ensure the inferred layers composite back to the input image. We train CObL using a few thousand synthetically-generated images of multi-object tabletop scenes, and we find that it zero-shot generalizes to photographs of real-world tabletops with varying numbers of novel objects. In contrast to recent models for amodal object completion, CObL reconstructs multiple occluded objects without user prompting and without knowing the number of objects beforehand. Unlike previous models for unsupervised object-centric representation learning, CObL is not limited to the world it was trained in.
- Abstract(参考訳): 視覚は、物体にピクセルをグループ化し、その空間的関係を横方向と奥行きの両方で理解することの恩恵を受ける。
我々はこれを「オブジェクト層」のオクルージョン順序のスタックからなるシーン表現で捉える。
この表現を画像から推測するために,コンカレント・オブジェクト・レイヤ (CObL) という拡散型アーキテクチャを導入する。
CObL はオブジェクト層を並列に生成し、Stable Diffusion を自然オブジェクトの先駆体とし、推論時のガイダンスを入力画像に合成する。
我々は,数千枚の合成合成テーブルトップシーンの画像を用いてCObLを訓練し,ゼロショットで新しいオブジェクトの数が変化する現実世界のタブレット画像に一般化することを確認した。
最近のアモーダルオブジェクト補完モデルとは対照的に、CObLはユーザがプロンプトしたり、事前にオブジェクトの数を知ることなく、複数の隠蔽オブジェクトを再構成する。
教師なしオブジェクト中心表現学習の以前のモデルとは異なり、CObLは訓練された世界に限定されていない。
関連論文リスト
- Multiple Object Stitching for Unsupervised Representation Learning [11.087735229999817]
マルチオブジェクト画像の教師なし表現を洗練させる手法であるMultiple Object Stitchingを提案する。
提案手法は,人間のアノテーションを使わずに,多目的画像間の追加のオブジェクト対応を提供する。
ImageNet, CIFAR, COCOデータセットによる実験結果から, 提案手法が教師なし表現性能を先導することを示す。
論文 参考訳(メタデータ) (2025-06-09T02:28:21Z) - Object-level Self-Distillation for Vision Pretraining [5.72299437201838]
最先端のビジョン事前トレーニング手法は、ImageNetのようなオブジェクト中心のデータセットからのイメージレベルの自己蒸留に依存している。
画像全体から個々の物体へ自己蒸留粒度をシフトさせる事前学習手法であるオブジェクトレベル自己DIStillation(ODIS)を導入する。
提案手法は,ViT-Large を用いた ImageNet1k で 82.6% の$k$-NN 精度を実現した。
論文 参考訳(メタデータ) (2025-06-04T15:50:09Z) - Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。
最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。
我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文 参考訳(メタデータ) (2025-04-09T17:59:05Z) - ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation [33.91045409317844]
本稿では,オブジェクト挿入と主観的生成の両方のためのチューニング不要な手法を提案する。
このタスクでは、複数のビューを与えられたオブジェクトを、画像またはテキストによって指定されたシーンにコンパイルする。
我々は,オブジェクト挿入と主観的生成の最先端手法と比較し,単一の参照や複数参照を用いて比較した。
論文 参考訳(メタデータ) (2024-12-11T18:59:53Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Instance Segmentation of Dense and Overlapping Objects via Layering [8.870513218826083]
本稿では,オブジェクト階層化による問題を解くための新しい手法を提案する。
空間的に分離されたオブジェクトを同じ層にグループ化することで、インスタンスを懸命に分離することができる。
後処理の最小化により,本手法は多様なデータセットに対して非常に競争力のある結果をもたらす。
論文 参考訳(メタデータ) (2022-10-07T13:37:56Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。