論文の概要: Emergence of Segmentation with Minimalistic White-Box Transformers
- arxiv url: http://arxiv.org/abs/2308.16271v1
- Date: Wed, 30 Aug 2023 19:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 18:39:15.060716
- Title: Emergence of Segmentation with Minimalistic White-Box Transformers
- Title(参考訳): 極小白色箱形変圧器によるセグメンテーションの創発
- Authors: Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam
Buchanan, Yi Ma
- Abstract要約: 従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。
本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。
この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
- 参考スコア(独自算出の注目度): 22.688777622988795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-like models for vision tasks have recently proven effective for a
wide range of downstream applications such as segmentation and detection.
Previous works have shown that segmentation properties emerge in vision
transformers (ViTs) trained using self-supervised methods such as DINO, but not
in those trained on supervised classification tasks. In this study, we probe
whether segmentation emerges in transformer-based models solely as a result of
intricate self-supervised learning mechanisms, or if the same emergence can be
achieved under much broader conditions through proper design of the model
architecture. Through extensive experimental results, we demonstrate that when
employing a white-box transformer-like architecture known as CRATE, whose
design explicitly models and pursues low-dimensional structures in the data
distribution, segmentation properties, at both the whole and parts levels,
already emerge with a minimalistic supervised training recipe. Layer-wise
finer-grained analysis reveals that the emergent properties strongly
corroborate the designed mathematical functions of the white-box network. Our
results suggest a path to design white-box foundation models that are
simultaneously highly performant and mathematically fully interpretable. Code
is at \url{https://github.com/Ma-Lab-Berkeley/CRATE}.
- Abstract(参考訳): 視覚タスクのトランスフォーマーライクなモデルは、最近、セグメンテーションや検出など、幅広い下流アプリケーションで有効であることが証明された。
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。
本研究では,複雑な自己教師付き学習機構の結果としてのみトランスフォーマーモデルにセグメンテーションが現れるのか,あるいはモデルアーキテクチャの適切な設計により,より広い条件下で同じセグメンテーションが達成できるのかを考察する。
実験の結果,データ分布の低次元構造を明示的にモデル化し追求するcrateと呼ばれるホワイトボックストランスフォーマチックなアーキテクチャを採用すると,全および部分レベルでのセグメンテーション特性が,すでに最小限の教師付きトレーニングレシピで出現することが示された。
層状細粒度解析により、創発的性質はホワイトボックスネットワークの設計した数学的関数に強く相関することが明らかとなった。
その結果,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルの設計方法が示唆された。
コードは \url{https://github.com/Ma-Lab-Berkeley/CRATE} にある。
関連論文リスト
- Cliqueformer: Model-Based Optimization with Structured Transformers [102.55764949282906]
我々は、MBOタスクの構造を学習し、経験的に改良された設計につながるモデルを開発する。
我々はCliqueformerを、高次元のブラックボックス機能から、化学・遺伝設計の現実的なタスクまで、様々なタスクで評価する。
論文 参考訳(メタデータ) (2024-10-17T00:35:47Z) - Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Masked Completion via Structured Diffusion with White-Box Transformers [23.07048591213815]
大規模教師なし表現学習に適用可能なホワイトボックス設計パラダイムの最初のインスタンス化を提供する。
我々は、拡散、圧縮、および(マスクされた)完了の基本的な接続を利用して、ディープトランスフォーマーのようなマスク付きオートエンコーダアーキテクチャを導出する。
CRATE-MAEは、大規模データセット上で非常に有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-03T04:23:01Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - Understanding Dynamics of Nonlinear Representation Learning and Its
Application [12.697842097171119]
暗黙的非線形表現学習のダイナミクスについて検討する。
我々は,データ構造アライメント条件がグローバル収束に十分であることを示す。
我々はデータ構造アライメント条件を満たす新しいトレーニングフレームワークを作成した。
論文 参考訳(メタデータ) (2021-06-28T16:31:30Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。