論文の概要: Self-Supervised Pre-training of Vision Transformers for Dense Prediction
Tasks
- arxiv url: http://arxiv.org/abs/2205.15173v1
- Date: Mon, 30 May 2022 15:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 17:02:52.091813
- Title: Self-Supervised Pre-training of Vision Transformers for Dense Prediction
Tasks
- Title(参考訳): ディエンス予測タスクのための視覚変換器の自己教師付き事前訓練
- Authors: Jaonary Rabarisoa, Velentin Belissen, Florian Chabot, Quoc-Cuong Pham
- Abstract要約: 本稿では,高密度予測タスクのための視覚変換器の自己教師付き事前学習を提案する。
我々の戦略は、大域的な画像表現のみに基づく対照的な事前学習とは対照的に、密集した予測タスクに適したより良い局所的特徴を生み出す。
- 参考スコア(独自算出の注目度): 2.160196691362033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new self-supervised pre-training of Vision Transformers for
dense prediction tasks. It is based on a contrastive loss across views that
compares pixel-level representations to global image representations. This
strategy produces better local features suitable for dense prediction tasks as
opposed to contrastive pre-training based on global image representation only.
Furthermore, our approach does not suffer from a reduced batch size since the
number of negative examples needed in the contrastive loss is in the order of
the number of local features. We demonstrate the effectiveness of our
pre-training strategy on two dense prediction tasks: semantic segmentation and
monocular depth estimation.
- Abstract(参考訳): 本稿では,集中予測タスクのための視覚トランスフォーマの自己教師付き事前学習について述べる。
これは、ピクセルレベルの表現とグローバル画像表現を比較するビュー間の対比的損失に基づいている。
この戦略は、大域的な画像表現のみに基づく対照的な事前学習とは対照的に、密集した予測タスクに適したより良い局所特徴を生成する。
さらに,コントラスト損失に必要な負の例の数は局所的な特徴数の順であるため,このアプローチではバッチサイズが小さくなることはない。
本研究は,2つの密集した予測課題,意味セグメンテーションと単眼深度推定における事前学習戦略の有効性を示す。
関連論文リスト
- Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。
また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文 参考訳(メタデータ) (2024-08-12T01:49:13Z) - Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation [31.023236232633213]
近年の適応は、コントラストビジョン・ランゲージ事前訓練の低ショット能力を高めることができる。
本稿では,テスト段階の適応計算に先立って,視覚的コンテンツリファインメント(VCR)を提案する。
提案手法を,13のデータセットを持つ3つの一般的なローショットベンチマークタスクに適用し,最先端の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-07-19T08:34:23Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - Generalizing Interactive Backpropagating Refinement for Dense Prediction [0.0]
本稿では,G-BRSレイヤの集合を導入し,グローバル・ローカライズド・リファインメントとローカライズド・リファインメントの両立を可能にした。
提案手法は,数クリックで既存の事前訓練された最先端モデルの性能を向上する。
論文 参考訳(メタデータ) (2021-12-21T03:52:08Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Supervision Accelerates Pre-training in Contrastive Semi-Supervised
Learning of Visual Representations [12.755943669814236]
そこで我々は,SNCEtという半教師付きロスを提案する。これは,自己教師型インスタンス単位のプリテキストタスクに加えて,異なるクラスの例を区別することを目的としている。
ImageNetでは、SNCEtは従来のコントラッシブアプローチの半教師付き学習精度と一致させることができる。
私たちの主な洞察は、事前トレーニング中に少量のラベル付きデータを利用するだけでなく、微調整中にも重要な信号を提供するということです。
論文 参考訳(メタデータ) (2020-06-18T18:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。