論文の概要: Object-Centric Pretraining via Target Encoder Bootstrapping
- arxiv url: http://arxiv.org/abs/2503.15141v1
- Date: Wed, 19 Mar 2025 12:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:24.727141
- Title: Object-Centric Pretraining via Target Encoder Bootstrapping
- Title(参考訳): ターゲットエンコーダブートストラッピングによるオブジェクト中心事前学習
- Authors: Nikola Đukić, Tim Lebailly, Tinne Tuytelaars,
- Abstract要約: 実世界のデータからオブジェクト中心モデルをスクラッチからトレーニングするための自己蒸留装置であるTarget BootstrappingによるObject-CEntric Pretrainingを提案する。
OCEBOは、オブジェクト中心のモデルに匹敵する教師なしのオブジェクト発見性能を達成する。
- 参考スコア(独自算出の注目度): 32.94657132820095
- License:
- Abstract: Object-centric representation learning has recently been successfully applied to real-world datasets. This success can be attributed to pretrained non-object-centric foundation models, whose features serve as reconstruction targets for slot attention. However, targets must remain frozen throughout the training, which sets an upper bound on the performance object-centric models can attain. Attempts to update the target encoder by bootstrapping result in large performance drops, which can be attributed to its lack of object-centric inductive biases, causing the object-centric model's encoder to drift away from representations useful as reconstruction targets. To address these limitations, we propose Object-CEntric Pretraining by Target Encoder BOotstrapping, a self-distillation setup for training object-centric models from scratch, on real-world data, for the first time ever. In OCEBO, the target encoder is updated as an exponential moving average of the object-centric model, thus explicitly being enriched with object-centric inductive biases introduced by slot attention while removing the upper bound on performance present in other models. We mitigate the slot collapse caused by random initialization of the target encoder by introducing a novel cross-view patch filtering approach that limits the supervision to sufficiently informative patches. When pretrained on 241k images from COCO, OCEBO achieves unsupervised object discovery performance comparable to that of object-centric models with frozen non-object-centric target encoders pretrained on hundreds of millions of images. The code and pretrained models are publicly available at https://github.com/djukicn/ocebo.
- Abstract(参考訳): オブジェクト中心表現学習は、最近実世界のデータセットにうまく適用されている。
この成功は事前訓練された非対象中心基礎モデルによるものであり、スロットアテンションのための再構成ターゲットとして機能する。
しかし、ターゲットはトレーニングを通して凍結し続けなければならず、パフォーマンスのオブジェクト中心モデルに上限を設定することができる。
ターゲットエンコーダをブートストラップで更新しようとする試みは、オブジェクト中心の帰納バイアスの欠如に起因する大きなパフォーマンス低下を招き、オブジェクト中心モデルのエンコーダは再構築ターゲットとして有用な表現から遠ざかる。
これらの制約に対処するため,ターゲットエンコーダBOotstrappingによるObject-CEntric Pretrainingを提案する。
OCEBOでは、ターゲットエンコーダをオブジェクト中心モデルの指数的な移動平均として更新し、スロットアテンションによって導入されたオブジェクト中心の帰納バイアスに明示的に富むとともに、他のモデルに存在するパフォーマンス上の上限を除去する。
本稿では,対象のエンコーダのランダム初期化によるスロット崩壊を軽減し,十分な情報的パッチに限定した新しいクロスビューパッチフィルタリング手法を提案する。
COCOから241kの画像で事前訓練された場合、OCEBOは、何百万もの画像で事前訓練された凍結された非オブジェクト中心のターゲットエンコーダを持つオブジェクト中心モデルに匹敵する、教師なしのオブジェクト発見性能を達成する。
コードと事前訓練されたモデルはhttps://github.com/djukicn/ocebo.comで公開されている。
関連論文リスト
- Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - CenterGrasp: Object-Aware Implicit Representation Learning for Simultaneous Shape Reconstruction and 6-DoF Grasp Estimation [24.20283483897243]
対象認識と全体的把握を組み合わせた新しいフレームワークであるCenterGraspを紹介する。
CenterGraspは、形を符号化する前に一般的なオブジェクトを学習し、連続的な潜伏空間で有効な把握を行う。
芸術の状況と比較して、CenterGraspは形状復元における38.5mm、把握成功における平均33パーセントの改善を実現している。
論文 参考訳(メタデータ) (2023-12-13T16:01:50Z) - Incremental Object-Based Novelty Detection with Feedback Loop [18.453867533201308]
オブジェクトベースのノベルティ検出(ND)は、トレーニング中に見られるクラスに属さない未知のオブジェクトを特定することを目的としている。
従来のNDアプローチでは、事前訓練されたオブジェクト検出出力の1回のオフラインポスト処理に重点を置いていた。
本研究では,予測された出力に対して人間のフィードバックを要求できることを前提として,オブジェクトベースのNDのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-15T14:46:20Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。
まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。
次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文 参考訳(メタデータ) (2023-02-17T15:26:04Z) - Boosting Object Representation Learning via Motion and Object Continuity [22.512380611375846]
物体の動きと連続性、すなわち、物体が存在の内外に現れないことを活用することを提案する。
結果のMotion and Object Continuityスキームは、任意のベースラインオブジェクト検出モデルを使用してインスタンス化することができる。
その結果,オブジェクト発見,収束速度,全般的な潜在オブジェクト表現の観点から,SOTAモデルの性能に大きな改善が見られた。
論文 参考訳(メタデータ) (2022-11-16T09:36:41Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。