論文の概要: SPOT: Self-Training with Patch-Order Permutation for Object-Centric Learning with Autoregressive Transformers
- arxiv url: http://arxiv.org/abs/2312.00648v2
- Date: Fri, 29 Mar 2024 11:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:17:12.989299
- Title: SPOT: Self-Training with Patch-Order Permutation for Object-Centric Learning with Autoregressive Transformers
- Title(参考訳): SPOT:自己回帰変換器を用いた物体中心学習のためのパッチ順変換による自己学習
- Authors: Ioannis Kakogeorgiou, Spyros Gidaris, Konstantinos Karantzalos, Nikos Komodakis,
- Abstract要約: 教師なしのオブジェクト中心学習は、シーンを解釈可能なオブジェクトエンティティ(スロット)に分解することを目的としている。
Slotベースのオートエンコーダは、このタスクの顕著な方法である。
本研究は,デコーダからエンコーダに優れたスロットベースのアテンションマスクを蒸留する2つの新しい手法を紹介する。
- 参考スコア(独自算出の注目度): 13.173384346104802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised object-centric learning aims to decompose scenes into interpretable object entities, termed slots. Slot-based auto-encoders stand out as a prominent method for this task. Within them, crucial aspects include guiding the encoder to generate object-specific slots and ensuring the decoder utilizes them during reconstruction. This work introduces two novel techniques, (i) an attention-based self-training approach, which distills superior slot-based attention masks from the decoder to the encoder, enhancing object segmentation, and (ii) an innovative patch-order permutation strategy for autoregressive transformers that strengthens the role of slot vectors in reconstruction. The effectiveness of these strategies is showcased experimentally. The combined approach significantly surpasses prior slot-based autoencoder methods in unsupervised object segmentation, especially with complex real-world images. We provide the implementation code at https://github.com/gkakogeorgiou/spot .
- Abstract(参考訳): 教師なしのオブジェクト中心学習は、シーンを解釈可能なオブジェクトエンティティ(スロット)に分解することを目的としている。
Slotベースのオートエンコーダは、このタスクの顕著な方法である。
それらの重要な側面には、エンコーダにオブジェクト固有のスロットを生成するよう誘導すること、デコーダが再構築時にそれらを利用するようにすることが含まれる。
この作品には2つの新しいテクニックが紹介されている。
一 デコーダからエンコーダに優れたスロットベースのアテンションマスクを蒸留し、オブジェクトセグメンテーションを強化するアテンションベースのセルフトレーニングアプローチ
(II) 自己回帰変換器の革新的なパッチ順置換戦略により, 再構成におけるスロットベクトルの役割が強化される。
これらの戦略の有効性を実験的に示す。
この組み合わせアプローチは、特に複雑な実世界の画像において、教師なしオブジェクトセグメンテーションにおいて、以前のスロットベースのオートエンコーダ手法を大幅に上回っている。
実装コードはhttps://github.com/gkakogeorgiou/spot で公開しています。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Laneformer: Object-aware Row-Column Transformers for Lane Detection [96.62919884511287]
Laneformerは、自動運転における車線検出に適したトランスフォーマーベースのアーキテクチャである。
様々な視覚タスクにおけるトランスフォーマーエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は新しいエンドツーエンドのLaneformerアーキテクチャの設計を進める。
論文 参考訳(メタデータ) (2022-03-18T10:14:35Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Sparsity and Sentence Structure in Encoder-Decoder Attention of
Summarization Systems [38.672160430296536]
トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。
これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。
この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
論文 参考訳(メタデータ) (2021-09-08T19:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。