Fugu-MT 論文翻訳(概要): Contextual Vision Transformers for Robust Representation Learning

論文の概要: Contextual Vision Transformers for Robust Representation Learning

arxiv url: http://arxiv.org/abs/2305.19402v2
Date: Thu, 28 Sep 2023 20:01:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 18:25:09.247829
Title: Contextual Vision Transformers for Robust Representation Learning
Title（参考訳）: ロバスト表現学習のためのコンテクストビジョントランスフォーマ
Authors: Yujia Bao, Theofanis Karaletsos
Abstract要約: 本研究ではContextual Vision Transformer(ContextViT)を導入し,複数のグループにまたがる潜在要因の変化を経験するデータセットに対して,ロバストな画像表現を生成する。 ContextViTには、グループ固有の情報をカプセル化するための追加のコンテキストトークンが含まれている。分布シフトの中で,ContextViTは安定な画像デファチュアライゼーションの学習に優れることを示す。
参考スコア（独自算出の注目度）: 10.459236278849938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Contextual Vision Transformers (ContextViT), a method designed to generate robust image representations for datasets experiencing shifts in latent factors across various groups. Derived from the concept of in-context learning, ContextViT incorporates an additional context token to encapsulate group-specific information. This integration allows the model to adjust the image representation in accordance with the group-specific context. Specifically, for a given input image, ContextViT maps images with identical group membership into this context token, which is appended to the input image tokens. Additionally, we introduce a context inference network to predict such tokens on-the-fly, given a batch of samples from the group. This enables ContextViT to adapt to new testing distributions during inference time. We demonstrate the efficacy of ContextViT across a wide range of applications. In supervised fine-tuning, we show that augmenting pre-trained ViTs with our proposed context conditioning mechanism results in consistent improvements in out-of-distribution generalization on iWildCam and FMoW. We also investigate self-supervised representation learning with ContextViT. Our experiments on the Camelyon17 pathology imaging benchmark and the JUMP-CP microscopy imaging benchmark demonstrate that ContextViT excels in learning stable image featurizations amidst distribution shift, consistently outperforming its ViT counterpart.
Abstract（参考訳）: 本研究では,様々なグループにまたがる潜在要因の変化を経験するデータセットに対して,ロバストな画像表現を生成するために設計されたContextual Vision Transformers(ContextViT)を紹介する。コンテキスト内学習の概念から派生したcontextvitは、グループ固有の情報をカプセル化する追加のコンテキストトークンを組み込んでいる。この統合により、モデルがグループ固有のコンテキストに応じてイメージ表現を調整することができる。具体的には、所定の入力画像に対して、ContextViTは、同じグループメンバーシップを持つ画像をこのコンテキストトークンにマッピングし、入力画像トークンに付加する。さらに,グループからサンプルのバッチを与えられた場合,オンザフライでトークンを予測するコンテキスト推論ネットワークを導入する。これにより、ContextViTは推論時間中に新しいテストディストリビューションに適応できる。さまざまなアプリケーションにまたがってContextViTの有効性を実証する。教師付き微調整では,事前学習したViTを文脈条件付き機構で拡張することにより,iWildCamとFMoWの分布外一般化が一貫した改善をもたらすことを示す。また,ContextViTを用いた自己教師型表現学習についても検討した。 Camelyon17 の病理画像ベンチマークと JUMP-CP の顕微鏡画像ベンチマークによる実験により,ContextViT は分布シフト中の安定な画像生成の学習において優れており,常に ViT に勝っていることが示された。

関連論文リスト

Adding simple structure at inference improves Vision-Language Compositionality [15.785274903236663]
本稿では,イメージとキャプションが与えられた場合,イメージを小さな作物に分割する,推論時に単純な構造を加えることを提案する。提案手法は,評価された視覚言語モデルの性能をトレーニングなしで継続的に改善する。
論文参考訳（メタデータ） (2025-06-11T13:06:25Z)
Semantic Graph Consistency: Going Beyond Patches for Regularizing Self-Supervised Vision Transformers [5.359378066251386]
視覚変換器(ViT)を用いた自己教師型学習は表現学習に有効であることが証明されている。既存のViTベースのSSLアーキテクチャは、ViTバックボーンを完全に活用していない。本稿では,ViTベースのSSLメソッドを標準化し,パッチトークンを効果的に活用するための新しいセマンティックグラフ一貫性(SGC)モジュールを提案する。
論文参考訳（メタデータ） (2024-06-18T06:36:44Z)
Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文参考訳（メタデータ） (2024-05-26T01:46:22Z)
Vision Transformers with Natural Language Semantics [13.535916922328287]
視覚変換器(ViT)には、自然言語処理(NLP)と異なり、基本的な意味情報がない。セマンティック・ビジョン・トランスフォーマー (Semantic Vision Transformers, SViT) は, セマンティック・インフォメーションを利用したトランスフォーマモデルである。 SViTは意味情報を効果的に活用し、畳み込みニューラルネットワークを連想させる誘導バイアスを生み出す。
論文参考訳（メタデータ） (2024-02-27T19:54:42Z)
Understanding Gaussian Attention Bias of Vision Transformers Using Effective Receptive Fields [7.58745191859815]
イメージを分割したパッチのシーケンスとしてモデル化する視覚変換器(ViT)は、多様な視覚タスクにおいて顕著なパフォーマンスを示している。本稿では,姿勢埋め込みをトレーニング開始時から対応するパターンを持つようにガイドするガウス的注意バイアスを明示的に追加することを提案する。その結果,提案手法は画像の理解を容易にするだけでなく,様々なデータセット上での性能向上にも寄与することがわかった。
論文参考訳（メタデータ） (2023-05-08T14:12:25Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Vision Transformer for Contrastive Clustering [48.476602271481674]
Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対してその優位性を示している。本稿では、VTCC(Vision Transformer for Contrastive Clustering)と呼ばれるエンドツーエンドのディープ・クラスタリング手法を提案する。
論文参考訳（メタデータ） (2022-06-26T17:00:35Z)
SAViR-T: Spatially Attentive Visual Reasoning with Transformers [26.62034916818108]
本稿では,Raven's Progressives (RPM) に具現化された視覚的推論問題のファミリに対して,新しい計算モデル "SAR-T" を提案する。本モデルは,パズル内の各画像内の視覚的要素の空間的意味を符号化された視覚的トークンとみなし,画像内および画像間のトークン依存性を学習する。我々は,SAViR-Tが従来のモデルの性能をかなり上回りながら,視覚的推論のための新たな最先端技術を構築していることを示す。
論文参考訳（メタデータ） (2022-06-18T18:26:20Z)
Distribution Estimation to Automate Transformation Policies for Self-Supervision [61.55875498848597]
近年のビジュアル・セルフ・スーパービジョンでは、ラベルを変換または拡張された入力画像に割り当てることで、プリテキスト・タスクと呼ばれる模倣された分類対象が確立されている。データセットにすでに存在する画像変換は、そのような自己教師付き表現を学習する上で、より効果的でない可能性があることが観察された。本稿では,入力データセットに存在しない変換を自動的に検出する,生成逆ネットワークに基づくフレームワークを提案する。
論文参考訳（メタデータ） (2021-11-24T04:40:00Z)
Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文参考訳（メタデータ） (2021-05-23T12:44:27Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)
Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文参考訳（メタデータ） (2020-12-09T14:05:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。