論文の概要: Perceptual Group Tokenizer: Building Perception with Iterative Grouping
- arxiv url: http://arxiv.org/abs/2311.18296v1
- Date: Thu, 30 Nov 2023 07:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:43:17.826452
- Title: Perceptual Group Tokenizer: Building Perception with Iterative Grouping
- Title(参考訳): 知覚的グループトケナイザ:反復的グループ化による知覚の構築
- Authors: Zhiwei Deng, Ting Chen, Yang Li
- Abstract要約: 本稿では,視覚的特徴を抽出し,自己指導型表現学習を行うためにグループ化操作に依存するパーセプチュアル・グループ・トケナイザを提案する。
提案モデルは,最先端のビジョンアーキテクチャと比較して,競争力のある計算性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 14.760204235027627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human visual recognition system shows astonishing capability of compressing
visual information into a set of tokens containing rich representations without
label supervision. One critical driving principle behind it is perceptual
grouping. Despite being widely used in computer vision in the early 2010s, it
remains a mystery whether perceptual grouping can be leveraged to derive a
neural visual recognition backbone that generates as powerful representations.
In this paper, we propose the Perceptual Group Tokenizer, a model that entirely
relies on grouping operations to extract visual features and perform
self-supervised representation learning, where a series of grouping operations
are used to iteratively hypothesize the context for pixels or superpixels to
refine feature representations. We show that the proposed model can achieve
competitive performance compared to state-of-the-art vision architectures, and
inherits desirable properties including adaptive computation without
re-training, and interpretability. Specifically, Perceptual Group Tokenizer
achieves 80.3% on ImageNet-1K self-supervised learning benchmark with linear
probe evaluation, marking a new progress under this paradigm.
- Abstract(参考訳): 人間の視覚認識システムは、ラベルの監督なしに、リッチな表現を含むトークンの集合に視覚情報を圧縮する驚くべき能力を示す。
その背後にある重要な駆動原理の1つは知覚的グループ化である。
2010年代初頭にコンピュータビジョンで広く使われているが、知覚的グループ化が強力な表現を生み出す神経視覚認識のバックボーンを導き出すことができるかどうかは謎のままである。
本稿では,視覚特徴を抽出し,自己教師あり表現学習を行うためのグループ化操作に完全に依存するモデルである知覚型グループトークン化器を提案する。
提案モデルでは,最先端の視覚アーキテクチャと比較して競争性能が向上し,再学習を伴わない適応計算や解釈可能性など,望ましい特性を継承できることを示す。
具体的には、Perceptual Group Tokenizerは、線形プローブ評価によるImageNet-1K自己教師型学習ベンチマークで80.3%を達成した。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Information Maximization Clustering via Multi-View Self-Labelling [9.947717243638289]
本稿では,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。
これは、離散表現をネットを通じて自己監督パラダイムに統合することで達成される。
実験の結果,提案手法は,平均精度89.1%,49.0%で最先端技術を上回ることがわかった。
論文 参考訳(メタデータ) (2021-03-12T16:04:41Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。