論文の概要: Self-supervision through Random Segments with Autoregressive Coding
(RandSAC)
- arxiv url: http://arxiv.org/abs/2203.12054v1
- Date: Tue, 22 Mar 2022 21:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 13:50:15.461252
- Title: Self-supervision through Random Segments with Autoregressive Coding
(RandSAC)
- Title(参考訳): 自己回帰符号化(RandSAC)を用いたランダムセグメントによる自己監督
- Authors: Tianyu Hua, Yonglong Tian, Sucheng Ren, Hang Zhao, Leonid Sigal
- Abstract要約: 様々なデザイン選択が視覚的特徴学習にそのようなトレーニング戦略を適用する成功にもたらす影響について検討する。
具体的には、自動回帰符号化(RandSAC)を用いたランダムセグメント(Random Segments)と呼ばれる新しい戦略を導入する。
RandSACでは、パッチ表現(画像トークン)を階層的に配置したセグメントにグループ化します。各セグメントでは、トークンはBERTに似ていますが、セグメント間の予測は、GPTに似ています。
セグメントのランダム化シリアライゼーションは、空間的長大(クロスセグメント)と短短短短(ウィスイン)の分布において、性能と結果を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 46.519302668058025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of self-supervised autoregressive representation
learning in natural language (GPT and its variants), and advances in recent
visual architecture design with Vision Transformers (ViTs), in this paper, we
explore the effects various design choices have on the success of applying such
training strategies for visual feature learning. Specifically, we introduce a
novel strategy that we call Random Segments with Autoregressive Coding
(RandSAC). In RandSAC, we group patch representations (image tokens) into
hierarchically arranged segments; within each segment, tokens are predicted in
parallel, similar to BERT, while across segment predictions are sequential,
similar to GPT. We illustrate that randomized serialization of the segments
significantly improves the performance and results in distribution over
spatially-long (across-segments) and -short (within-segment) predictions which
are effective for feature learning. We illustrate the pertinence of these
design choices and explore alternatives on a number of datasets (e.g., CIFAR10,
ImageNet). While our pre-training strategy works with vanilla Transformer, we
also propose a conceptually simple, but highly effective, addition to the
decoder that allows learnable skip-connections to encoder feature layers, which
further improves the performance. Our final model, trained on ImageNet,
achieves new state-of-the-art linear probing performance 68.3% among
comparative predictive self-supervised learning approaches.
- Abstract(参考訳): 本稿では,自然言語における自己教師あり自己回帰表現学習(gptとその変種)の成功と,視覚トランスフォーマー(vits)を用いた最近の視覚アーキテクチャ設計の進展に触発され,視覚機能学習における学習戦略の適用に様々なデザイン選択が与えた影響について考察する。
具体的には,ランダムセグメントを自動回帰符号化(randsac)と呼ぶ新しい戦略を提案する。
randsacでは、パッチ表現(イメージトークン)を階層的に配置したセグメントにグループ化する。各セグメント内では、トークンはbertに類似した並列に予測され、セグメント全体ではgptに類似している。
セグメントのランダム化シリアライゼーションは,特徴学習に有効な空間長(クロスセグメント)と短(インターセグメント)の予測よりも,性能と結果が著しく向上することを示す。
いくつかのデータセット(例えば、CIFAR10、ImageNet)上で、これらの設計選択の関連性を説明します。
我々の事前学習戦略はバニラ変圧器で機能するが、概念的にシンプルだが非常に効果的であると同時に、エンコーダ特徴層に学習可能なスキップ接続を可能にするデコーダも提案し、パフォーマンスをさらに向上させる。
ImageNetでトレーニングした最終モデルは、予測的自己教師型学習アプローチの中で、最先端の線形探索性能を68.3%向上させる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - An EM Framework for Online Incremental Learning of Semantic Segmentation [37.94734474090863]
本稿では,新しいクラスのみに画素アノテーションを付加したストリーミング入力データを用いて,大惨な忘れをせずに深いセグメンテーションモデルを適応できる漸進的な学習戦略を提案する。
PASCAL VOC 2012とADE20Kデータセットに対するアプローチを検証するとともに,既存のインクリメンタルメソッドよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T11:30:09Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。