論文の概要: INDIGO: Intrinsic Multimodality for Domain Generalization
- arxiv url: http://arxiv.org/abs/2206.05912v1
- Date: Mon, 13 Jun 2022 05:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 01:25:49.687931
- Title: INDIGO: Intrinsic Multimodality for Domain Generalization
- Title(参考訳): INDIGO:ドメインの一般化のための固有のマルチモーダリティ
- Authors: Puneet Mangla and Shivam Chandhok and Milan Aggarwal and Vineeth N
Balasubramanian and Balaji Krishnamurthy
- Abstract要約: マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
- 参考スコア(独自算出の注目度): 26.344372409315177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For models to generalize under unseen domains (a.k.a domain generalization),
it is crucial to learn feature representations that are domain-agnostic and
capture the underlying semantics that makes up an object category. Recent
advances towards weakly supervised vision-language models that learn holistic
representations from cheap weakly supervised noisy text annotations have shown
their ability on semantic understanding by capturing object characteristics
that generalize under different domains. However, when multiple source domains
are involved, the cost of curating textual annotations for every image in the
dataset can blow up several times, depending on their number. This makes the
process tedious and infeasible, hindering us from directly using these
supervised vision-language approaches to achieve the best generalization on an
unseen domain. Motivated from this, we study how multimodal information from
existing pre-trained multimodal networks can be leveraged in an "intrinsic" way
to make systems generalize under unseen domains. To this end, we propose
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO), a simple and
elegant way of leveraging the intrinsic modality present in these pre-trained
multimodal networks along with the visual modality to enhance generalization to
unseen domains at test-time. We experiment on several Domain Generalization
settings (ClosedDG, OpenDG, and Limited sources) and show state-of-the-art
generalization performance on unseen domains. Further, we provide a thorough
analysis to develop a holistic understanding of INDIGO.
- Abstract(参考訳): unseen domain(ドメインの一般化)の下で一般化するモデルには、ドメインに依存しない特徴表現を学習し、オブジェクトカテゴリを構成する基礎となるセマンティクスを捉えることが不可欠である。
安価な弱教師付きノイズテキストアノテーションから全体表現を学習する弱教師付き視覚言語モデルへの最近の進歩は、異なるドメインで一般化する対象特性を捉えることによって意味理解の能力を示している。
しかし、複数のソースドメインが関与する場合、データセット内の画像毎にテキストアノテーションをキュレートするコストは、その数に応じて数回爆発する可能性がある。
これにより、プロセスが退屈で実現不可能になり、教師付き視覚言語アプローチを直接使用して、目に見えないドメイン上で最高の一般化を実現するのを妨げます。
このことから,既存の事前学習型マルチモーダルネットワークからのマルチモーダル情報を「本質的な」方法で活用して,未知の領域下でのシステム一般化を実現する方法について検討した。
そこで本研究では,これらの事前学習されたマルチモーダルネットワークに存在する本質的モダリティを,視覚モダリティとともに簡易かつエレガントに活用し,テスト時に未知領域への一般化を促進するためのドメイン一般化(indigo)のための本質的マルチモーダリティを提案する。
我々はいくつかの領域一般化設定(ClosedDG, OpenDG, Limitedソース)を実験し、未確認領域における最先端の一般化性能を示す。
さらに、INDIGOの総合的な理解を深めるために、徹底的な分析を行う。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Beyond Finite Data: Towards Data-free Out-of-distribution Generalization
via Extrapolation [19.944946262284123]
ニューラルネットワークが人間のように外挿し、OODの一般化を実現するにはどうすればよいのか?
本稿では,大言語モデル(LLM)にカプセル化されている推論能力と広範な知識を活用して,完全に新しいドメインを合成する領域外挿手法を提案する。
提案手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2%超え, 評価可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-08T18:44:23Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。
本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。
我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T10:25:45Z) - Context-Conditional Adaptation for Recognizing Unseen Classes in Unseen
Domains [48.17225008334873]
我々は,COCOA (COntext Conditional Adaptive) Batch-Normalization と統合された特徴生成フレームワークを提案する。
生成されたビジュアル機能は、基礎となるデータ分散をよりよくキャプチャすることで、テスト時に見つからないクラスやドメインに一般化できます。
確立した大規模ベンチマークであるDomainNetに対する我々のアプローチを徹底的に評価し、分析する。
論文 参考訳(メタデータ) (2021-07-15T17:51:16Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Learning to Balance Specificity and Invariance for In and Out of Domain
Generalization [27.338573739304604]
ドメイン内および外部の一般化性能を改善するモデルである一般化のためのドメイン固有マスクを紹介する。
ドメインの一般化のために、ゴールはソースドメインの集合から学び、見えないターゲットドメインに最もよく一般化する単一のモデルを作成することである。
本研究では,PACSとDomainNetの両面において,単純なベースラインと最先端の手法と比較して,競争力のある性能を示す。
論文 参考訳(メタデータ) (2020-08-28T20:39:51Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。