論文の概要: TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation
- arxiv url: http://arxiv.org/abs/2508.06452v1
- Date: Fri, 08 Aug 2025 16:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.311552
- Title: TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation
- Title(参考訳): TRUST: 教師なしドメイン適応のためのテキストロバストネスの活用
- Authors: Mattia Litrico, Mario Valerio Giuffrida, Sebastiano Battiato, Devis Tuia,
- Abstract要約: 視覚モデルの適応を導くために,言語モダリティの堅牢性を活用する新しいUDAアプローチを導入する。
視覚と言語の特徴空間を整合させるマルチモーダルなソフトコントラスト学習損失を提案する。
我々のアプローチは従来の手法よりも優れており、従来の(DomainNet)ドメインシフトと複雑な(GeoNet)ドメインシフトに新しい最先端の設定を施しています。
- 参考スコア(独自算出の注目度): 9.906359339999039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent unsupervised domain adaptation (UDA) methods have shown great success in addressing classical domain shifts (e.g., synthetic-to-real), but they still suffer under complex shifts (e.g. geographical shift), where both the background and object appearances differ significantly across domains. Prior works showed that the language modality can help in the adaptation process, exhibiting more robustness to such complex shifts. In this paper, we introduce TRUST, a novel UDA approach that exploits the robustness of the language modality to guide the adaptation of a vision model. TRUST generates pseudo-labels for target samples from their captions and introduces a novel uncertainty estimation strategy that uses normalised CLIP similarity scores to estimate the uncertainty of the generated pseudo-labels. Such estimated uncertainty is then used to reweight the classification loss, mitigating the adverse effects of wrong pseudo-labels obtained from low-quality captions. To further increase the robustness of the vision model, we propose a multimodal soft-contrastive learning loss that aligns the vision and language feature spaces, by leveraging captions to guide the contrastive training of the vision model on target images. In our contrastive loss, each pair of images acts as both a positive and a negative pair and their feature representations are attracted and repulsed with a strength proportional to the similarity of their captions. This solution avoids the need for hardly determining positive and negative pairs, which is critical in the UDA setting. Our approach outperforms previous methods, setting the new state-of-the-art on classical (DomainNet) and complex (GeoNet) domain shifts. The code will be available upon acceptance.
- Abstract(参考訳): 最近の非教師なしドメイン適応(UDA)法は、古典的なドメインシフト(例:合成から現実への移行)に対処する上で大きな成功を収めているが、背景とオブジェクトの外観がドメイン間で大きく異なる複雑なシフト(例:地理的シフト)に苦しむ。
先行研究は、言語モダリティが適応プロセスに役立つことを示し、そのような複雑なシフトに対してより堅牢性を示す。
本稿では,言語モダリティのロバスト性を利用して視覚モデルの適応を導く新しいUDA手法であるTRUSTを紹介する。
TRUSTはキャプションからターゲットサンプルの擬似ラベルを生成し、正規化されたCLIP類似度スコアを用いて生成された擬似ラベルの不確かさを推定する新しい不確実性推定戦略を導入する。
このような推定不確実性は、低品質キャプションから得られる誤った擬似ラベルの悪影響を軽減し、分類損失を再重み付けするために使用される。
視覚モデルのロバスト性をさらに高めるために,視覚と言語の特徴空間を整合させるマルチモーダルなソフトコントラスト学習損失を提案する。
対照的に、各画像は正対と負対の両方として機能し、その特徴表現は、キャプションの類似性に比例した強さで惹きつけられて反発する。
この解は、UDAの設定において重要な正と負のペアをほとんど決定する必要がなくなる。
我々のアプローチは従来の手法よりも優れており、従来の(DomainNet)ドメインシフトと複雑な(GeoNet)ドメインシフトに新しい最先端の設定を施しています。
コードは受理後利用可能になる。
関連論文リスト
- Rethinking Weak-to-Strong Augmentation in Source-Free Domain Adaptive Object Detection [38.596886094105216]
Source-Free Domain Adaptive Object Detection (SFOD) は、検出器(ソースドメインで事前訓練された)を新しい未実装のターゲットドメインに転送することを目的としている。
本稿では,Wak-to-Strong Contrastive Learning (WSCoL) アプローチを紹介する。
論文 参考訳(メタデータ) (2024-10-07T23:32:06Z) - Domain Adaptive Object Detection via Balancing Between Self-Training and
Adversarial Learning [19.81071116581342]
深層学習に基づく物体検出器は、対象と背景に大きなバリエーションを持つ新しい対象領域に一般化するのに苦労する。
現在の手法では、画像またはインスタンスレベルの対角的特徴アライメントを使用してドメインをアライメントする。
本稿では,モデルの予測不確実性を利用して,対向的特徴アライメントとクラスレベルのアライメントの適切なバランスを打つことを提案する。
論文 参考訳(メタデータ) (2023-11-08T16:40:53Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Selective Pseudo-Labeling with Reinforcement Learning for
Semi-Supervised Domain Adaptation [116.48885692054724]
半教師付きドメイン適応のための強化学習に基づく選択擬似ラベル法を提案する。
高精度かつ代表的な擬似ラベルインスタンスを選択するための深層Q-ラーニングモデルを開発する。
提案手法は, SSDAのベンチマークデータセットを用いて評価し, 全ての比較手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-07T03:37:38Z) - Learning from Scale-Invariant Examples for Domain Adaptation in Semantic
Segmentation [6.320141734801679]
本稿では,自己教師付きドメイン適応のためのセマンティックセグメンテーションモデルのスケール不変性を利用した新しいアプローチを提案する。
我々のアルゴリズムは、一般に、オブジェクトや物のサイズに関係なく、セマンティックなラベリングは変更すべきである、という合理的な仮定に基づいている。
この制約はターゲットドメインのイメージに反し、異なるスケールのパッチ間でラベルの転送に使用できることを示す。
論文 参考訳(メタデータ) (2020-07-28T19:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。