論文の概要: Domain Generalisation with Bidirectional Encoder Representations from
Vision Transformers
- arxiv url: http://arxiv.org/abs/2307.08117v1
- Date: Sun, 16 Jul 2023 17:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:34:25.162778
- Title: Domain Generalisation with Bidirectional Encoder Representations from
Vision Transformers
- Title(参考訳): 視覚トランスフォーマからの双方向エンコーダ表現による領域一般化
- Authors: Hamza Riaz and Alan F. Smeaton
- Abstract要約: ドメインの一般化は、ソースドメインからの知識を単一のモデルにプールすることで、目に見えないターゲットドメインに一般化する。
ドメイン一般化における最近の研究は、深層学習モデルを用いて、訓練対象と異なるデータ分布と相互作用する際の課題に直面している。
ここでは、視覚変換器を用いて、オフ・オブ・ディストリビューション(OOD)ビジョンベンチマークの領域一般化を行う。
- 参考スコア(独自算出の注目度): 3.236217153362305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain generalisation involves pooling knowledge from source domain(s) into a
single model that can generalise to unseen target domain(s). Recent research in
domain generalisation has faced challenges when using deep learning models as
they interact with data distributions which differ from those they are trained
on. Here we perform domain generalisation on out-of-distribution (OOD) vision
benchmarks using vision transformers. Initially we examine four vision
transformer architectures namely ViT, LeViT, DeiT, and BEIT on
out-of-distribution data. As the bidirectional encoder representation from
image transformers (BEIT) architecture performs best, we use it in further
experiments on three benchmarks PACS, Home-Office and DomainNet. Our results
show significant improvements in validation and test accuracy and our
implementation significantly overcomes gaps between within-distribution and OOD
data.
- Abstract(参考訳): ドメインの一般化は、ソースドメインからの知識を、目に見えないターゲットドメインに一般化できる単一のモデルにプールすることを伴う。
ドメイン一般化における最近の研究は、深層学習モデルを用いて、訓練対象と異なるデータ分布と相互作用する際の課題に直面している。
ここでは、視覚変換器を用いて、オフ・オブ・ディストリビューション(OOD)ビジョンベンチマークの領域一般化を行う。
まず,vit, levit, deit, beitの4つの視覚トランスフォーマーアーキテクチャについて検討した。
画像トランスフォーマー(BEIT)アーキテクチャによる双方向エンコーダ表現が優れているため,PACS,Home-Office,DomainNetの3つのベンチマークでさらに実験を行った。
その結果, 検証精度とテスト精度が大幅に向上し, イントラディストリビューションデータとOODデータのギャップを大幅に克服した。
関連論文リスト
- Domain-Conditioned Transformer for Fully Test-time Adaptation [18.51468880167399]
完全なテスト時間適応は、推論段階での入力サンプルのシーケンシャル分析に基づいて、ネットワークモデルをオンラインで適応することを目的としている。
変換器ネットワークモデルを新しい領域に適用すると、対象領域の画像サンプルの自己アテンションプロファイルは、ソース領域のものとは大きく異なる。
本稿では, 変圧器における自己保持モジュールの新しい構造を提案する。具体的には, ドメイン条件ベクトルと呼ばれる3つのドメイン条件ベクトルを, 自己保持モジュールのクエリ, キー, バリューコンポーネントに組み込む。
論文 参考訳(メタデータ) (2024-10-14T12:36:27Z) - Improving satellite imagery segmentation using multiple Sentinel-2 revisits [0.0]
我々は、微調整された事前学習されたリモートセンシングモデルのフレームワークにおいて、リビジョンを使用する最善の方法を探る。
モデル潜在空間における複数の再試行からの融合表現は、他の再試行法よりも優れていることが判明した。
SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T21:13:33Z) - Exploring Consistency in Cross-Domain Transformer for Domain Adaptive
Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。
このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。
ドメイン横断の注意層を持つアテンションマップに適応する。
論文 参考訳(メタデータ) (2022-11-27T02:40:33Z) - Domain Adaptation via Bidirectional Cross-Attention Transformer [4.643871270374136]
ドメイン適応(DA)のための双方向クロスアテンション変換器(BCAT)を提案する。
BCATでは、アテンションメカニズムが暗黙のソースとターゲットのミックスアップ特徴表現を抽出し、ドメインの差を狭めることができる。
実験により,提案したBCATモデルは,4つのベンチマークデータセットにおいて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-01-15T16:49:56Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Domain2Vec: Domain Embedding for Unsupervised Domain Adaptation [56.94873619509414]
従来の教師なしドメイン適応は、限られた数のドメイン間の知識伝達を研究する。
本稿では,特徴不整合とグラム行列の連成学習に基づいて,視覚領域のベクトル表現を提供する新しいDomain2Vecモデルを提案する。
我々の埋め込みは、異なるドメイン間の視覚的関係に関する直感と一致するドメイン類似性を予測できることを示した。
論文 参考訳(メタデータ) (2020-07-17T22:05:09Z) - Supervised Domain Adaptation: A Graph Embedding Perspective and a
Rectified Experimental Protocol [87.76993857713217]
本稿では、ソースとターゲットのドメインデータ間のペアワイズ関係を用いたドメイン適応法をグラフ埋め込みとして定式化できることを示す。
具体的には、既存の3つのSupervised Domain Adaptationメソッドの損失関数を分析し、グラフ埋め込みを行うことを示す。
論文 参考訳(メタデータ) (2020-04-23T15:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。