論文の概要: Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2603.22758v1
- Date: Tue, 24 Mar 2026 03:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.282851
- Title: Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning
- Title(参考訳): リコンストラクションガイドによるスロットカリキュラム:ビデオ物体中心学習における過剰フラグメンテーションに対処する
- Authors: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo,
- Abstract要約: Video Object-Centric Learningは、生のビデオを小さなオブジェクトスロットに分解しようとしている。
既存のスロットモデルは、しばしば厳しい過度なオーバーフラグメントに悩まされる。
我々はこの制限を再構築誘導スロットカリキュラムで解決する。
- 参考スコア(独自算出の注目度): 45.1920794546889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video Object-Centric Learning seeks to decompose raw videos into a small set of object slots, but existing slot-attention models often suffer from severe over-fragmentation. This is because the model is implicitly encouraged to occupy all slots to minimize the reconstruction objective, thereby representing a single object with multiple redundant slots. We tackle this limitation with a reconstruction-guided slot curriculum (SlotCurri). Training starts with only a few coarse slots and progressively allocates new slots where reconstruction error remains high, thus expanding capacity only where it is needed and preventing fragmentation from the outset. Yet, during slot expansion, meaningful sub-parts can emerge only if coarse-level semantics are already well separated; however, with a small initial slot budget and an MSE objective, semantic boundaries remain blurry. Therefore, we augment MSE with a structure-aware loss that preserves local contrast and edge information to encourage each slot to sharpen its semantic boundaries. Lastly, we propose a cyclic inference that rolls slots forward and then backward through the frame sequence, producing temporally consistent object representations even in the earliest frames. All combined, SlotCurri addresses object over-fragmentation by allocating representational capacity where reconstruction fails, further enhanced by structural cues and cyclic inference. Notable FG-ARI gains of +6.8 on YouTube-VIS and +8.3 on MOVi-C validate the effectiveness of SlotCurri. Our code is available at github.com/wjun0830/SlotCurri.
- Abstract(参考訳): Video Object-Centric Learningは、生のビデオを小さなセットのオブジェクトスロットに分解しようとするが、既存のスロットアテンションモデルは深刻なオーバーフラグメントに悩まされることが多い。
これは、モデルが暗黙的にすべてのスロットを占有して再構成の目的を最小化し、複数の冗長なスロットを持つ単一のオブジェクトを表現することを奨励されているためである。
我々はこの制限を再構築誘導スロットカリキュラム(SlotCurri)で解決する。
トレーニングはごくわずかの粗いスロットで開始され、リコンストラクションエラーの高いスロットを段階的に割り当てる。
しかし、スロット展開中は、粗いレベルのセマンティクスがすでに十分に分離されている場合にのみ意味のあるサブパーツが現れるが、小さな初期スロット予算とMSEの目的により、意味境界は曖昧のままである。
したがって、局所的なコントラストとエッジ情報を保存し、各スロットのセマンティック境界を鋭くするため、MSEを構造認識損失で拡張する。
最後に,初期フレームにおいても時間的に一貫したオブジェクト表現を生成するために,スロットを前後に回す循環推論を提案する。
SlotCurriは、再構築が失敗する表現能力の割り当てによってオブジェクトのオーバーフラグメンテーションに対処し、構造的キューと循環的推論によってさらに強化される。
有名なFG-ARIはYouTube-VISで+6.8、MOVi-Cで+8.3でSlotCurriの有効性を検証する。
私たちのコードはgithub.com/wjun0830/SlotCurriで利用可能です。
関連論文リスト
- Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment [83.56510119503265]
事前訓練された拡散モデルによるスロット注意(SA)は、最近オブジェクト中心学習(OCL)の可能性を示唆しているが、スロットの絡み合いや、オブジェクトスロットと画像内容との弱いアライメントに悩まされている。
提案するCODA(Contrastive Object-centric Diffusion Alignment)は,(i)残響を吸収し,オブジェクトスロット間の干渉を低減するためにレジスタスロットを使用する単純な拡張であり,(ii)スロットイメージ対応を明示的に促進するためにコントラストアライメントロスを適用する。
論文 参考訳(メタデータ) (2026-01-03T16:10:18Z) - OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects [58.38338242973447]
OnlineSplatterは、RGBフレームから直接高品質でオブジェクト中心の3Dガウシアンを生成する新しいフレームワークである。
提案手法は,第1フレームを用いて再構成をアンカーし,高密度ガウス原始体を通して対象表現を漸進的に洗練する。
我々のコアコントリビューションは、潜伏した外見幾何学キーと明示的な方向キーを組み合わせたデュアルキーメモリモジュールです。
論文 参考訳(メタデータ) (2025-10-23T14:37:25Z) - Slot Attention with Re-Initialization and Self-Distillation [33.38373596185185]
本稿では、オブジェクトの発見と認識のための再初期化と自己蒸留(DIAS)によるスロット注意を提案する。
DIASはオブジェクトの発見や認識といったOCLタスクの最先端のタスクを実現し、高度な視覚的予測と推論を改善している。
論文 参考訳(メタデータ) (2025-07-31T17:41:18Z) - Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Towards Improving the Generation Quality of Autoregressive Slot VAEs [16.079315268039934]
オブジェクト相関学習を強化する2つの改善を提案する。
まず、スロット間の高次相関をキャプチャするグローバルなシーンレベルの変数にスロットを条件付けする。
第2に、シーンオブジェクトの自動回帰生成に使用する一貫した順序を学習することを提案することにより、画像中のオブジェクトに対する標準順序の根本的な欠如に対処する。
論文 参考訳(メタデータ) (2022-06-03T02:41:59Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Test-time Adaptation with Slot-Centric Models [63.981055778098444]
Slot-TTAは、半教師付きシーン分解モデルであり、シーンごとのテスト時間は、再構成やクロスビュー合成の目的に対する勾配降下を通じて適用される。
我々は、最先端の監視フィードフォワード検出器と代替テスト時間適応法に対して、配電性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-03-21T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。