論文の概要: Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment
- arxiv url: http://arxiv.org/abs/2601.01224v1
- Date: Sat, 03 Jan 2026 16:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.128035
- Title: Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment
- Title(参考訳): レジスタとコントラストアライメントを用いた物体中心拡散学習の改良
- Authors: Bac Nguyen, Yuhta Takida, Naoki Murata, Chieh-Hsin Lai, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji,
- Abstract要約: 事前訓練された拡散モデルによるスロット注意(SA)は、最近オブジェクト中心学習(OCL)の可能性を示唆しているが、スロットの絡み合いや、オブジェクトスロットと画像内容との弱いアライメントに悩まされている。
提案するCODA(Contrastive Object-centric Diffusion Alignment)は,(i)残響を吸収し,オブジェクトスロット間の干渉を低減するためにレジスタスロットを使用する単純な拡張であり,(ii)スロットイメージ対応を明示的に促進するためにコントラストアライメントロスを適用する。
- 参考スコア(独自算出の注目度): 83.56510119503265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slot Attention (SA) with pretrained diffusion models has recently shown promise for object-centric learning (OCL), but suffers from slot entanglement and weak alignment between object slots and image content. We propose Contrastive Object-centric Diffusion Alignment (CODA), a simple extension that (i) employs register slots to absorb residual attention and reduce interference between object slots, and (ii) applies a contrastive alignment loss to explicitly encourage slot-image correspondence. The resulting training objective serves as a tractable surrogate for maximizing mutual information (MI) between slots and inputs, strengthening slot representation quality. On both synthetic (MOVi-C/E) and real-world datasets (VOC, COCO), CODA improves object discovery (e.g., +6.1% FG-ARI on COCO), property prediction, and compositional image generation over strong baselines. Register slots add negligible overhead, keeping CODA efficient and scalable. These results indicate potential applications of CODA as an effective framework for robust OCL in complex, real-world scenes.
- Abstract(参考訳): 事前訓練された拡散モデルによるスロット注意(SA)は、最近オブジェクト中心学習(OCL)の公約を示しているが、スロットの絡み合いや、オブジェクトスロットと画像コンテンツ間の弱いアライメントに悩まされている。
簡単な拡張であるCODA(Contrastive Object-centric Diffusion Alignment)を提案する。
i)残留注意を吸収し、オブジェクトスロット間の干渉を減らすためにレジスタスロットを使用し、
(ii)スロットイメージ対応を明示的に促進するためにコントラストアライメントロスを適用する。
得られたトレーニング目的は、スロットと入力間の相互情報(MI)を最大化し、スロット表現品質を強化するためのトラクタブルサロゲートとして機能する。
合成(MOVi-C/E)と実世界のデータセット(VOC、COCO)の両方において、CODAはオブジェクト発見(例えば、COCOにおける+6.1% FG-ARI)、特性予測、強いベースライン上での合成画像生成を改善する。
レジスタスロットは無視できるオーバーヘッドを追加し、CODAを効率的かつスケーラブルにします。
これらの結果は,複雑な実世界のシーンにおいて,CODAを堅牢なOCLの有効なフレームワークとして活用する可能性を示している。
関連論文リスト
- CORE-ReID V2: Advancing the Domain Adaptation for Object Re-Identification with Optimized Training and Ensemble Fusion [0.0]
本研究では,CORE-ReIDに基づくフレームワークであるCORE-ReID V2を提案する。
新しいフレームワークは Person ReID と Vehicle ReID における Unsupervised Domain Adaptation (UDA) の課題に対処する。
広く使われているUDA Person ReID と Vehicle ReID データセットの実験結果から,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-08-06T02:57:09Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - HierarchicalContrast: A Coarse-to-Fine Contrastive Learning Framework
for Cross-Domain Zero-Shot Slot Filling [4.1940152307593515]
ドメイン間のゼロショットスロットフィリングは、モデルを学ぶためにソースドメイン知識を活用する上で重要な役割を果たす。
既存のゼロショットスロット充填法では、ターゲット領域での一般化能力が制限されている。
ゼロショットスロットフィリングのための新しい階層型コントラスト学習フレームワーク(HiCL)を提案する。
論文 参考訳(メタデータ) (2023-10-13T14:23:33Z) - Contrastive Learning with Consistent Representations [8.364383223740097]
本稿では,Contrastive Learning with Consistent Representations CoCorを提案する。
CoCorの中心には、DA整合性と呼ばれる新しい整合性指標があります。
実験結果から,CoCorは学習した表現の一般化可能性や伝達可能性を高めることが明らかとなった。
論文 参考訳(メタデータ) (2023-02-03T04:34:00Z) - Momentum Contrastive Autoencoder: Using Contrastive Learning for Latent
Space Distribution Matching in WAE [51.09507030387935]
Wasserstein autoencoder (WAE) は、2つの分布が一致することは、このAEの潜在空間が予め指定された事前分布と一致するという制約の下で、単純なオートエンコーダ(AE)損失を最小限にすることと同値であることを示している。
本稿では,この問題を解決する手段として,自己指導型表現学習に有効であることを示すコントラスト学習フレームワークを提案する。
WAEの損失を最適化するために、対照的な学習フレームワークを使用することで、WAEの一般的なアルゴリズムと比較して、より高速に収束し、より安定した最適化が達成できることを示す。
論文 参考訳(メタデータ) (2021-10-19T22:55:47Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。