論文の概要: Discovering Spatial Relationships by Transformers for Domain
Generalization
- arxiv url: http://arxiv.org/abs/2108.10046v1
- Date: Mon, 23 Aug 2021 10:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 16:03:34.452930
- Title: Discovering Spatial Relationships by Transformers for Domain
Generalization
- Title(参考訳): 領域一般化のためのトランスフォーマによる空間関係の発見
- Authors: Cuicui Kang and Karthik Nandakumar
- Abstract要約: ドメインの一般化は、コンピュータビジョンにおけるAI技術の迅速な開発のおかげで難しい問題である。
ほとんどの高度なアルゴリズムは畳み込みニューラルネット(CNN)に基づくディープアーキテクチャによって提案されている。
- 参考スコア(独自算出の注目度): 8.106918528575267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rapid increase in the diversity of image data, the problem of
domain generalization has received increased attention recently. While domain
generalization is a challenging problem, it has achieved great development
thanks to the fast development of AI techniques in computer vision. Most of
these advanced algorithms are proposed with deep architectures based on
convolution neural nets (CNN). However, though CNNs have a strong ability to
find the discriminative features, they do a poor job of modeling the relations
between different locations in the image due to the response to CNN filters are
mostly local. Since these local and global spatial relationships are
characterized to distinguish an object under consideration, they play a
critical role in improving the generalization ability against the domain gap.
In order to get the object parts relationships to gain better domain
generalization, this work proposes to use the self attention model. However,
the attention models are proposed for sequence, which are not expert in
discriminate feature extraction for 2D images. Considering this, we proposed a
hybrid architecture to discover the spatial relationships between these local
features, and derive a composite representation that encodes both the
discriminative features and their relationships to improve the domain
generalization. Evaluation on three well-known benchmarks demonstrates the
benefits of modeling relationships between the features of an image using the
proposed method and achieves state-of-the-art domain generalization
performance. More specifically, the proposed algorithm outperforms the
state-of-the-art by $2.2\%$ and $3.4\%$ on PACS and Office-Home databases,
respectively.
- Abstract(参考訳): 画像データの多様性の急激な増大により、領域一般化の問題は近年注目されている。
ドメインの一般化は難しい問題だが、コンピュータビジョンにおけるAI技術の急速な開発のおかげで、大きな発展を遂げている。
これらのアルゴリズムの多くは、畳み込みニューラルネット(CNN)に基づく深いアーキテクチャで提案されている。
しかし、CNNには識別的特徴を見つける能力があるものの、CNNフィルタに対する応答がほとんど局所的であるため、画像内の異なる位置間の関係をモデル化する作業は不十分である。
これらの局所的および大域的空間関係は、検討中の対象を区別するために特徴づけられるため、領域ギャップに対する一般化能力の向上に重要な役割を果たしている。
対象部品の関係をよりよいドメインの一般化にするために、本研究は自己注意モデルの利用を提案する。
しかし,2次元画像の特徴抽出には熟練していないシーケンスに対して,アテンションモデルを提案する。
これを考慮し,これらの局所的特徴の空間的関係を探索するハイブリッドアーキテクチャを提案し,識別的特徴とそれらの関係をエンコードした複合表現を導出し,ドメインの一般化を改善する。
3つのよく知られたベンチマークの評価は、提案手法を用いて画像の特徴間の関係をモデル化することの利点を示し、最先端のドメイン一般化性能を達成する。
より具体的には、提案されたアルゴリズムは、PACSとOffice-Homeデータベースでそれぞれ2.2\%$と3.4\%$で最先端である。
関連論文リスト
- Semantic Segmentation for Real-World and Synthetic Vehicle's Forward-Facing Camera Images [0.8562182926816566]
これは、車両の前向きカメラからの実世界の画像と合成画像の両方におけるセマンティックセグメンテーション問題の解決策である。
我々は、さまざまな屋外状況の様々な領域でよく機能するロバストモデルの構築に集中する。
本稿では,意味的セグメンテーション問題における領域適応のための実世界のデータと合成データの併用の有効性について検討する。
論文 参考訳(メタデータ) (2024-07-07T17:28:45Z) - Domain Generalization for In-Orbit 6D Pose Estimation [14.624172952608653]
宇宙船のポーズ推定ネットワークのための,エンドツーエンドのニューラルベースアーキテクチャを提案する。
提案手法はドメインギャップを効果的に閉鎖し,SPEED+データセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-06-17T17:01:20Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Domain Generalization via Frequency-based Feature Disentanglement and
Interaction [23.61154228837516]
ドメインの一般化は、複数のソースドメインからドメインに依存しない知識をマイニングすることを目的としている。
i) 高周波・低周波特徴分離のためのエンコーダ・デコーダ構造を導入し, (ii) 両部からの有益な知識が効果的に連携できる情報相互作用機構を提案する。
提案手法は,広範に使用されている3つの領域一般化ベンチマークの最先端結果を得る。
論文 参考訳(メタデータ) (2022-01-20T07:42:12Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。