論文の概要: Contextual Vision Transformers for Robust Representation Learning
- arxiv url: http://arxiv.org/abs/2305.19402v1
- Date: Tue, 30 May 2023 20:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:38:47.692683
- Title: Contextual Vision Transformers for Robust Representation Learning
- Title(参考訳): ロバスト表現学習のためのコンテクストビジョントランスフォーマ
- Authors: Yujia Bao, Theofanis Karaletsos
- Abstract要約: 本稿では、グループ化された構造画像に対して、ロバストな特徴表現を生成するためのContextViT(Contextual Vision Transformers)を提案する。
ContextViTは、グループ固有の情報をエンコードするための余分なコンテキストトークンを導入し、モデルがグループ固有の共変構造を説明できるようにする。
- 参考スコア(独自算出の注目度): 13.061626251923471
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Contextual Vision Transformers (ContextViT), a method for
producing robust feature representations for images exhibiting grouped
structure such as covariates. ContextViT introduces an extra context token to
encode group-specific information, allowing the model to explain away
group-specific covariate structures while keeping core visual features shared
across groups. Specifically, given an input image, Context-ViT maps images that
share the same covariate into this context token appended to the input image
tokens to capture the effects of conditioning the model on group membership. We
furthermore introduce a context inference network to predict such tokens on the
fly given a few samples from a group distribution, enabling ContextViT to
generalize to new testing distributions at inference time. We illustrate the
performance of ContextViT through a diverse range of applications. In
supervised fine-tuning, we demonstrate that augmenting pre-trained ViTs with
additional context conditioning leads to significant improvements in
out-of-distribution generalization on iWildCam and FMoW. We also explored
self-supervised representation learning with ContextViT. Our experiments on the
Camelyon17 pathology imaging benchmark and the cpg-0000 microscopy imaging
benchmark demonstrate that ContextViT excels in learning stable image
featurizations amidst covariate shift, consistently outperforming its ViT
counterpart.
- Abstract(参考訳): 共変量のような群構造を示す画像に対してロバストな特徴表現を生成するためのコンテキストビジョントランスフォーマー(contextvit)を提案する。
ContextViTは、グループ固有の情報をエンコードする余分なコンテキストトークンを導入し、モデルがグループ固有の共変構造を説明できると同時に、グループ間でコアな視覚的特徴を共有できる。
具体的には、入力画像が与えられると、同じ共変量を共有する画像を、入力画像トークンに追加されたこのコンテキストトークンにマッピングし、モデルがグループメンバシップに与える影響をキャプチャする。
さらに,グループ分布から数個のサンプルが与えられた場合,このようなトークンをリアルタイムで予測するコンテキスト推論ネットワークを導入し,推論時に新しいテスト分布に一般化できるようにする。
さまざまなアプリケーションを通じてContextViTのパフォーマンスを説明します。
教師付き微調整では,事前学習したvitを追加コンディショニングにより拡張することで,iwildcamとfmowの分散一般化が大幅に向上することを示す。
contextvitを用いた自己教師付き表現学習についても検討した。
camelyon17 病理イメージングベンチマークおよびcpg-0000 顕微鏡イメージングベンチマークによる実験により,コンテキストvit は共変量シフト下での安定な画像フェーチュライゼーションの学習に優れ,vit と同等に優れていることが示された。
関連論文リスト
- Semantic Graph Consistency: Going Beyond Patches for Regularizing Self-Supervised Vision Transformers [5.359378066251386]
視覚変換器(ViT)を用いた自己教師型学習は表現学習に有効であることが証明されている。
既存のViTベースのSSLアーキテクチャは、ViTバックボーンを完全に活用していない。
本稿では,ViTベースのSSLメソッドを標準化し,パッチトークンを効果的に活用するための新しいセマンティックグラフ一貫性(SGC)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-18T06:36:44Z) - Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - Vision Transformers with Natural Language Semantics [13.535916922328287]
視覚変換器(ViT)には、自然言語処理(NLP)と異なり、基本的な意味情報がない。
セマンティック・ビジョン・トランスフォーマー (Semantic Vision Transformers, SViT) は, セマンティック・インフォメーションを利用したトランスフォーマモデルである。
SViTは意味情報を効果的に活用し、畳み込みニューラルネットワークを連想させる誘導バイアスを生み出す。
論文 参考訳(メタデータ) (2024-02-27T19:54:42Z) - Understanding Gaussian Attention Bias of Vision Transformers Using
Effective Receptive Fields [7.58745191859815]
イメージを分割したパッチのシーケンスとしてモデル化する視覚変換器(ViT)は、多様な視覚タスクにおいて顕著なパフォーマンスを示している。
本稿では,姿勢埋め込みをトレーニング開始時から対応するパターンを持つようにガイドするガウス的注意バイアスを明示的に追加することを提案する。
その結果,提案手法は画像の理解を容易にするだけでなく,様々なデータセット上での性能向上にも寄与することがわかった。
論文 参考訳(メタデータ) (2023-05-08T14:12:25Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Vision Transformer for Contrastive Clustering [48.476602271481674]
Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対してその優位性を示している。
本稿では、VTCC(Vision Transformer for Contrastive Clustering)と呼ばれるエンドツーエンドのディープ・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-26T17:00:35Z) - SAViR-T: Spatially Attentive Visual Reasoning with Transformers [26.62034916818108]
本稿では,Raven's Progressives (RPM) に具現化された視覚的推論問題のファミリに対して,新しい計算モデル "SAR-T" を提案する。
本モデルは,パズル内の各画像内の視覚的要素の空間的意味を符号化された視覚的トークンとみなし,画像内および画像間のトークン依存性を学習する。
我々は,SAViR-Tが従来のモデルの性能をかなり上回りながら,視覚的推論のための新たな最先端技術を構築していることを示す。
論文 参考訳(メタデータ) (2022-06-18T18:26:20Z) - Distribution Estimation to Automate Transformation Policies for
Self-Supervision [61.55875498848597]
近年のビジュアル・セルフ・スーパービジョンでは、ラベルを変換または拡張された入力画像に割り当てることで、プリテキスト・タスクと呼ばれる模倣された分類対象が確立されている。
データセットにすでに存在する画像変換は、そのような自己教師付き表現を学習する上で、より効果的でない可能性があることが観察された。
本稿では,入力データセットに存在しない変換を自動的に検出する,生成逆ネットワークに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T04:40:00Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。