論文の概要: Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers
- arxiv url: http://arxiv.org/abs/2209.03745v1
- Date: Wed, 7 Sep 2022 02:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:06:35.355706
- Title: Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers
- Title(参考訳): 自己監督型視覚変換器における事前知識誘導注意
- Authors: Kevin Miao, Akash Gokul, Raghav Singh, Suzanne Petryk, Joseph
Gonzalez, Kurt Keutzer, Trevor Darrell, Colorado Reed
- Abstract要約: 本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
- 参考スコア(独自算出の注目度): 79.60022233109397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent trends in self-supervised representation learning have focused on
removing inductive biases from training pipelines. However, inductive biases
can be useful in settings when limited data are available or provide additional
insight into the underlying data distribution. We present spatial prior
attention (SPAN), a framework that takes advantage of consistent spatial and
semantic structure in unlabeled image datasets to guide Vision Transformer
attention. SPAN operates by regularizing attention masks from separate
transformer heads to follow various priors over semantic regions. These priors
can be derived from data statistics or a single labeled sample provided by a
domain expert. We study SPAN through several detailed real-world scenarios,
including medical image analysis and visual quality assurance. We find that the
resulting attention masks are more interpretable than those derived from
domain-agnostic pretraining. SPAN produces a 58.7 mAP improvement for lung and
heart segmentation. We also find that our method yields a 2.2 mAUC improvement
compared to domain-agnostic pretraining when transferring the pretrained model
to a downstream chest disease classification task. Lastly, we show that SPAN
pretraining leads to higher downstream classification performance in low-data
regimes compared to domain-agnostic pretraining.
- Abstract(参考訳): 自己教師型表現学習の最近のトレンドは、訓練パイプラインから帰納バイアスを取り除くことに集中している。
しかし、インダクティブバイアスは、限られたデータが利用できる場合や、基礎となるデータ分布に関するさらなる洞察を提供する場合に有用である。
本研究では,未ラベル画像データセットにおける一貫した空間的・意味的構造を活用し,視覚トランスフォーマーの注意を誘導する枠組みである空間的事前注意(span)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
これらの優先順位は、データ統計やドメインエキスパートが提供する単一のラベル付きサンプルから導き出します。
医療画像解析や視覚品質保証など,現実世界の詳細なシナリオについて検討した。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
SPANは肺と心臓のセグメンテーションに58.7mAPの改善をもたらす。
また,前訓練モデルから下流胸部疾患分類タスクへ移行する際の領域非依存前訓練に比べて2.2モーク改善がみられた。
最後に、SPAN事前学習は、ドメインに依存しない事前訓練と比較して、低データ体制における下流分類性能が高いことを示す。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Source-Free Domain Adaptation for Medical Image Segmentation via
Prototype-Anchored Feature Alignment and Contrastive Learning [57.43322536718131]
医用画像セグメンテーションのための2段階のソースフリードメイン適応(SFDA)フレームワークを提案する。
プロトタイプアンコールされた特徴アライメントの段階では,まず,事前学習した画素ワイド分類器の重みを原プロトタイプとして利用する。
そこで,本研究では,目標となる特徴とクラスプロトタイプとの整合性を期待するコストを最小化し,双方向輸送を導入する。
論文 参考訳(メタデータ) (2023-07-19T06:07:12Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Curriculum-Based Augmented Fourier Domain Adaptation for Robust Medical
Image Segmentation [18.830738606514736]
本研究は、堅牢な医用画像分割のためのカリキュラムベースの拡張フーリエドメイン適応(Curri-AFDA)を提案する。
特に、カリキュラム学習戦略は、異なるレベルのデータシフトの下でのモデルの因果関係に基づいている。
複数のサイトやスキャナーから収集した網膜と核の2つのセグメンテーションタスクの実験から,提案手法が優れた適応と一般化性能をもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:56:58Z) - AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud
Dataset [25.935496432142976]
知覚モデルが大規模なクラウドデータセットから学ぶことは、Autonomous Driving (AD)コミュニティの長期的なビジョンである。
我々は、ポイントクラウド事前トレーニングタスクを半教師付き問題として定式化し、少数のラベル付きおよび大規模ラベルなしのポイントクラウドデータを活用する。
我々は、異なるベースラインモデルの下で、nuScenesやKITTIを含む一連の下流認識ベンチマークにおいて、大幅な性能向上を達成する。
論文 参考訳(メタデータ) (2023-06-01T12:32:52Z) - Attentive Continuous Generative Self-training for Unsupervised Domain
Adaptive Medical Image Translation [12.080054869408213]
本研究では,連続的な値予測と回帰目標を用いた領域適応型画像翻訳のための自己学習フレームワークを開発した。
我々は,T1-重み付きMR-屈折異方性変換を含む2つの対象間翻訳タスクの枠組みについて検討した。
論文 参考訳(メタデータ) (2023-05-23T23:57:44Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。