論文の概要: Learning Object-Centric Representations Based on Slots in Real World Scenarios
- arxiv url: http://arxiv.org/abs/2509.24652v1
- Date: Mon, 29 Sep 2025 12:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.954037
- Title: Learning Object-Centric Representations Based on Slots in Real World Scenarios
- Title(参考訳): 実世界のシナリオにおけるスロットに基づくオブジェクト中心表現の学習
- Authors: Adil Kaan Akan,
- Abstract要約: この論文では、オブジェクト中心合成のための強力な事前学習拡散モデルを適用するフレームワークを紹介している。
我々は、大域的なシーンコヒーレンスと不整合オブジェクト制御のバランスをとるという、重要な課題を識別する。
本手法は,軽量なスロットベースの条件付けを事前訓練されたモデルに統合し,オブジェクト固有の操作を提供しながら,それらの視覚的先行を保留する。
- 参考スコア(独自算出の注目度): 5.922488908114023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central goal in AI is to represent scenes as compositions of discrete objects, enabling fine-grained, controllable image and video generation. Yet leading diffusion models treat images holistically and rely on text conditioning, creating a mismatch for object-level editing. This thesis introduces a framework that adapts powerful pretrained diffusion models for object-centric synthesis while retaining their generative capacity. We identify a core challenge: balancing global scene coherence with disentangled object control. Our method integrates lightweight, slot-based conditioning into pretrained models, preserving their visual priors while providing object-specific manipulation. For images, SlotAdapt augments diffusion models with a register token for background/style and slot-conditioned modules for objects, reducing text-conditioning bias and achieving state-of-the-art results in object discovery, segmentation, compositional editing, and controllable image generation. We further extend the framework to video. Using Invariant Slot Attention (ISA) to separate object identity from pose and a Transformer-based temporal aggregator, our approach maintains consistent object representations and dynamics across frames. This yields new benchmarks in unsupervised video object segmentation and reconstruction, and supports advanced editing tasks such as object removal, replacement, and insertion without explicit supervision. Overall, this work establishes a general and scalable approach to object-centric generative modeling for images and videos. By bridging human object-based perception and machine learning, it expands the design space for interactive, structured, and user-driven generative tools in creative, scientific, and practical domains.
- Abstract(参考訳): AIの中心的な目標は、シーンを離散オブジェクトの合成として表現し、きめ細かい、制御可能なイメージとビデオ生成を可能にすることである。
しかし、主要な拡散モデルでは、画像が一様に扱われ、テキストコンディショニングに依存し、オブジェクトレベルの編集のミスマッチを生成する。
この論文では、生成能力を保ちながら、オブジェクト中心合成のために強力な事前学習拡散モデルを適用するフレームワークを紹介している。
我々は、大域的なシーンコヒーレンスと不整合オブジェクト制御のバランスをとるという、重要な課題を識別する。
本手法は,軽量なスロットベースの条件付けを事前訓練されたモデルに統合し,オブジェクト固有の操作を提供しながら,それらの視覚的先行を保留する。
画像に対して、SlotAdaptは、オブジェクトの背景/スタイルおよびスロット条件モジュール用のレジスタトークンで拡散モデルを拡張し、テキスト条件バイアスを減らし、オブジェクトの発見、セグメント化、合成編集、制御可能な画像生成の最先端結果を達成する。
フレームワークをさらにビデオに拡張します。
Invariant Slot Attention (ISA) を用いて、ポーズとTransformerベースの時間アグリゲータを分離する。
これにより、教師なしのビデオオブジェクトのセグメンテーションと再構成の新たなベンチマークが得られ、オブジェクトの削除、置換、挿入といった高度な編集タスクを明示的な監督なしにサポートする。
全体として、この研究は、画像やビデオのオブジェクト中心生成モデルに対する汎用的でスケーラブルなアプローチを確立している。
人間のオブジェクトベースの知覚と機械学習をブリッジすることで、創造的、科学的、実践的な領域において、インタラクティブで構造化され、ユーザ主導の生成ツールのためのデザインスペースを拡大する。
関連論文リスト
- Compositional Video Synthesis by Temporal Object-Centric Learning [3.2228025627337864]
本稿では、時間的に一貫したオブジェクト中心表現を利用する合成ビデオ合成のための新しいフレームワークを提案する。
提案手法は, 物体中心スロットの変動を学習し, 事前学習した拡散モデルに条件付けすることによって, 時間的ダイナミクスを明示的に捉える。
この設計により、時間コヒーレンスに優れた高品質の画素レベルのビデオ合成が可能となる。
論文 参考訳(メタデータ) (2025-07-28T14:11:04Z) - ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。