論文の概要: Grounding Visual Representations with Texts for Domain Generalization
- arxiv url: http://arxiv.org/abs/2207.10285v1
- Date: Thu, 21 Jul 2022 03:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:15:36.686398
- Title: Grounding Visual Representations with Texts for Domain Generalization
- Title(参考訳): 領域一般化のためのテキストによる接地視覚表現
- Authors: Seonwoo Min, Nokyung Park, Siwon Kim, Seunghyun Park, Jinkyu Kim
- Abstract要約: 相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
- 参考スコア(独自算出の注目度): 9.554646174100123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing the representational discrepancy between source and target domains
is a key component to maximize the model generalization. In this work, we
advocate for leveraging natural language supervision for the domain
generalization task. We introduce two modules to ground visual representations
with texts containing typical reasoning of humans: (1) Visual and Textual Joint
Embedder and (2) Textual Explanation Generator. The former learns the
image-text joint embedding space where we can ground high-level
class-discriminative information into the model. The latter leverages an
explainable model and generates explanations justifying the rationale behind
its decision. To the best of our knowledge, this is the first work to leverage
the vision-and-language cross-modality approach for the domain generalization
task. Our experiments with a newly created CUB-DG benchmark dataset demonstrate
that cross-modality supervision can be successfully used to ground
domain-invariant visual representations and improve the model generalization.
Furthermore, in the large-scale DomainBed benchmark, our proposed method
achieves state-of-the-art results and ranks 1st in average performance for five
multi-domain datasets. The dataset and codes are available at
https://github.com/mswzeus/GVRT.
- Abstract(参考訳): モデル一般化を最大化するための鍵となる要素は、ソースとターゲットドメイン間の表現上の相違を減らすことである。
本稿では、ドメイン一般化タスクにおける自然言語監督の活用を提唱する。
人間の典型的推論を含むテキストを用いた視覚表現に,(1)視覚・テキスト統合埋め込みと(2)テキスト説明生成という2つのモジュールを導入する。
前者は画像テキストの結合埋め込み空間を学習し、高レベルなクラス識別情報をモデルに埋め込むことができる。
後者は説明可能なモデルを利用し、決定の背後にある根拠を正当化する説明を生成する。
我々の知る限りでは、これはドメイン一般化タスクに視覚と言語間の相互モダリティアプローチを利用する最初の試みである。
新たに作成されたCUB-DGベンチマークデータセットを用いた実験により、ドメイン不変の視覚表現を基盤として、モデル一般化を改善するために、モダリティ間監視をうまく利用できることが示されている。
さらに, 大規模ドメインベッドベンチマークでは, 提案手法が最先端の結果を達成し, 5つのマルチドメインデータセットの平均性能で1位にランクインした。
データセットとコードはhttps://github.com/mswzeus/gvrtで入手できる。
関連論文リスト
- Large Language Models as Visual Cross-Domain Learners [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
伝統的な手法は画像のモダリティのみにのみ焦点をあて、ドメインシフトを軽減するためにテキストのモダリティの使用を無視する。
Visual Cross-dOmain Learningers (LLaVO) としてLarge Languageモデルを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image
Diffusion Models and Stylized Semantic Control [71.5653099236357]
DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。
街路シーンの多様なデータセットを生成し、ドメインに依存しないセマンティックセマンティックセマンティクスモデルをトレーニングし、人気のある自動運転データセット上でモデルを評価する。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - A Sentence Speaks a Thousand Images: Domain Generalization through
Distilling CLIP with Language Guidance [41.793995960478355]
大規模視覚言語モデルにおける最近の進歩を生かした領域一般化のための新しい手法を提案する。
鍵となる技術的貢献は、生徒の学習した画像表現が教師の学習したテキスト表現に近いことを要求する新しいタイプの正規化である。
提案手法はRISEと呼ばれ,様々なベンチマークデータセットを用いて評価し,最先端の領域一般化手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-21T23:06:19Z) - TDG: Text-guided Domain Generalization [10.322052096998728]
我々は、テキスト誘導ドメイン一般化(TDG)パラダイムをドメイン一般化のために開発する。
まず、新しいドメイン関連単語で現在のドメインの記述を拡張するために、自動単語生成手法を考案する。
そして,提案手法により生成したドメイン情報をテキスト特徴空間に埋め込む。
最後に、入力画像特徴と生成されたテキスト特徴の両方を利用して、未確認のターゲットドメインをうまく一般化する特別な設計の分類器を訓練する。
論文 参考訳(メタデータ) (2023-08-19T07:21:02Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Bidirectional Generative Framework for Cross-domain Aspect-based
Sentiment Analysis [68.742820522137]
クロスドメインアスペクトベースの感情分析(ABSA)は、ソースドメインから知識を伝達することで、ターゲットドメイン上で様々なきめ細かい感情分析タスクを実行することを目的としている。
本稿では,多様なドメイン間ABSAタスクに対処するための統合双方向生成フレームワークを提案する。
我々のフレームワークは、テキストからラベルまでの方向とラベルからテキストへの方向の両方で生成モデルを訓練する。
論文 参考訳(メタデータ) (2023-05-16T15:02:23Z) - Semi-supervised Meta-learning with Disentanglement for
Domain-generalised Medical Image Segmentation [15.351113774542839]
新たなセンター(ここではドメイン)からの新しいデータにモデルを一般化することは、依然として課題である。
本稿では,絡み合いを伴う半教師付きメタラーニングフレームワークを提案する。
提案手法は,異なるセグメンテーションタスクに対して頑健であり,2つの公開ベンチマーク上での最先端の一般化性能を実現する。
論文 参考訳(メタデータ) (2021-06-24T19:50:07Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Generalizable Model-agnostic Semantic Segmentation via Target-specific
Normalization [24.14272032117714]
一般化可能なセマンティックセグメンテーションタスクのための新しいドメイン一般化フレームワークを提案する。
モデルに依存しない学習を利用してドメインシフト問題をシミュレートする。
観測対象領域と観測対象領域間のデータ分散の相違を考慮し、目標固有正規化方式を開発する。
論文 参考訳(メタデータ) (2020-03-27T09:25:19Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。