論文の概要: A Contrastive Learning Scheme with Transformer Innate Patches
- arxiv url: http://arxiv.org/abs/2303.14806v2
- Date: Mon, 8 Jan 2024 12:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:12:33.279554
- Title: A Contrastive Learning Scheme with Transformer Innate Patches
- Title(参考訳): トランスフォーマー固有のパッチを用いたコントラスト学習方式
- Authors: Sander Riis{\o}en Jyhne, Per-Arne Andersen, Morten Goodwin
- Abstract要約: 本稿では,Transformer固有のパッチを用いたコントラスト学習方式であるContrastive Transformerを提案する。
このスキームは、教師付きパッチレベルのコントラスト学習を行い、地上の真理マスクに基づいてパッチを選択する。
このスキームはすべての視覚変換器アーキテクチャに適用され、実装が容易で、最小限のメモリフットプリントを導入している。
- 参考スコア(独自算出の注目度): 4.588028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Contrastive Transformer, a contrastive learning scheme
using the Transformer innate patches. Contrastive Transformer enables existing
contrastive learning techniques, often used for image classification, to
benefit dense downstream prediction tasks such as semantic segmentation. The
scheme performs supervised patch-level contrastive learning, selecting the
patches based on the ground truth mask, subsequently used for hard-negative and
hard-positive sampling. The scheme applies to all vision-transformer
architectures, is easy to implement, and introduces minimal additional memory
footprint. Additionally, the scheme removes the need for huge batch sizes, as
each patch is treated as an image.
We apply and test Contrastive Transformer for the case of aerial image
segmentation, known for low-resolution data, large class imbalance, and similar
semantic classes. We perform extensive experiments to show the efficacy of the
Contrastive Transformer scheme on the ISPRS Potsdam aerial image segmentation
dataset. Additionally, we show the generalizability of our scheme by applying
it to multiple inherently different Transformer architectures. Ultimately, the
results show a consistent increase in mean IoU across all classes.
- Abstract(参考訳): 本稿では,Transformer固有のパッチを用いたコントラスト学習方式であるContrastive Transformerを提案する。
Contrastive Transformerは、画像分類によく使用される既存のコントラスト学習技術を提供し、セマンティックセグメンテーションのような下流の密集した予測タスクに役立てる。
このスキームは、教師付きパッチレベルのコントラスト学習を行い、地上の真理マスクに基づいてパッチを選択し、その後、ハードネガティブおよびハード陽性サンプリングに使用される。
このスキームは、すべての視覚変換アーキテクチャに適用され、実装が容易であり、最小限のメモリフットプリントを導入する。
さらに、このスキームは、各パッチがイメージとして扱われるため、巨大なバッチサイズの必要性を取り除く。
本研究では,低分解能データ,大等級不均衡,類似意味クラスで知られている空中画像セグメンテーションにContrastive Transformerを適用して検証する。
ISPRS Potsdam空中画像セグメンテーションデータセットにおけるContrastive Transformerスキームの有効性を示すための広範な実験を行った。
さらに,複数の異なるトランスフォーマーアーキテクチャに適用することで,本手法の一般化可能性を示す。
最終的に、結果はすべてのクラスで平均IoUが一貫した増加を示した。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Adaptive Image Transformations for Transfer-based Adversarial Attack [73.74904401540743]
適応画像変換学習(AITL)と呼ばれる新しいアーキテクチャを提案する。
精巧に設計した学習者は、入力画像固有の画像変換の最も効果的な組み合わせを適応的に選択する。
本手法は、通常訓練されたモデルと防衛モデルの両方において、各種設定下での攻撃成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-27T08:15:44Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。