論文の概要: Grounding Visual Representations with Texts for Domain Generalization
- arxiv url: http://arxiv.org/abs/2207.10285v1
- Date: Thu, 21 Jul 2022 03:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:15:36.686398
- Title: Grounding Visual Representations with Texts for Domain Generalization
- Title(参考訳): 領域一般化のためのテキストによる接地視覚表現
- Authors: Seonwoo Min, Nokyung Park, Siwon Kim, Seunghyun Park, Jinkyu Kim
- Abstract要約: 相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
- 参考スコア(独自算出の注目度): 9.554646174100123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing the representational discrepancy between source and target domains
is a key component to maximize the model generalization. In this work, we
advocate for leveraging natural language supervision for the domain
generalization task. We introduce two modules to ground visual representations
with texts containing typical reasoning of humans: (1) Visual and Textual Joint
Embedder and (2) Textual Explanation Generator. The former learns the
image-text joint embedding space where we can ground high-level
class-discriminative information into the model. The latter leverages an
explainable model and generates explanations justifying the rationale behind
its decision. To the best of our knowledge, this is the first work to leverage
the vision-and-language cross-modality approach for the domain generalization
task. Our experiments with a newly created CUB-DG benchmark dataset demonstrate
that cross-modality supervision can be successfully used to ground
domain-invariant visual representations and improve the model generalization.
Furthermore, in the large-scale DomainBed benchmark, our proposed method
achieves state-of-the-art results and ranks 1st in average performance for five
multi-domain datasets. The dataset and codes are available at
https://github.com/mswzeus/GVRT.
- Abstract(参考訳): モデル一般化を最大化するための鍵となる要素は、ソースとターゲットドメイン間の表現上の相違を減らすことである。
本稿では、ドメイン一般化タスクにおける自然言語監督の活用を提唱する。
人間の典型的推論を含むテキストを用いた視覚表現に,(1)視覚・テキスト統合埋め込みと(2)テキスト説明生成という2つのモジュールを導入する。
前者は画像テキストの結合埋め込み空間を学習し、高レベルなクラス識別情報をモデルに埋め込むことができる。
後者は説明可能なモデルを利用し、決定の背後にある根拠を正当化する説明を生成する。
我々の知る限りでは、これはドメイン一般化タスクに視覚と言語間の相互モダリティアプローチを利用する最初の試みである。
新たに作成されたCUB-DGベンチマークデータセットを用いた実験により、ドメイン不変の視覚表現を基盤として、モデル一般化を改善するために、モダリティ間監視をうまく利用できることが示されている。
さらに, 大規模ドメインベッドベンチマークでは, 提案手法が最先端の結果を達成し, 5つのマルチドメインデータセットの平均性能で1位にランクインした。
データセットとコードはhttps://github.com/mswzeus/gvrtで入手できる。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - A Sentence Speaks a Thousand Images: Domain Generalization through
Distilling CLIP with Language Guidance [41.793995960478355]
大規模視覚言語モデルにおける最近の進歩を生かした領域一般化のための新しい手法を提案する。
鍵となる技術的貢献は、生徒の学習した画像表現が教師の学習したテキスト表現に近いことを要求する新しいタイプの正規化である。
提案手法はRISEと呼ばれ,様々なベンチマークデータセットを用いて評価し,最先端の領域一般化手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-21T23:06:19Z) - TDG: Text-guided Domain Generalization [10.322052096998728]
我々は、テキスト誘導ドメイン一般化(TDG)パラダイムをドメイン一般化のために開発する。
まず、新しいドメイン関連単語で現在のドメインの記述を拡張するために、自動単語生成手法を考案する。
そして,提案手法により生成したドメイン情報をテキスト特徴空間に埋め込む。
最後に、入力画像特徴と生成されたテキスト特徴の両方を利用して、未確認のターゲットドメインをうまく一般化する特別な設計の分類器を訓練する。
論文 参考訳(メタデータ) (2023-08-19T07:21:02Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Semi-supervised Meta-learning with Disentanglement for
Domain-generalised Medical Image Segmentation [15.351113774542839]
新たなセンター(ここではドメイン)からの新しいデータにモデルを一般化することは、依然として課題である。
本稿では,絡み合いを伴う半教師付きメタラーニングフレームワークを提案する。
提案手法は,異なるセグメンテーションタスクに対して頑健であり,2つの公開ベンチマーク上での最先端の一般化性能を実現する。
論文 参考訳(メタデータ) (2021-06-24T19:50:07Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Generalizable Model-agnostic Semantic Segmentation via Target-specific
Normalization [24.14272032117714]
一般化可能なセマンティックセグメンテーションタスクのための新しいドメイン一般化フレームワークを提案する。
モデルに依存しない学習を利用してドメインシフト問題をシミュレートする。
観測対象領域と観測対象領域間のデータ分散の相違を考慮し、目標固有正規化方式を開発する。
論文 参考訳(メタデータ) (2020-03-27T09:25:19Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。