論文の概要: A Sentence Speaks a Thousand Images: Domain Generalization through
Distilling CLIP with Language Guidance
- arxiv url: http://arxiv.org/abs/2309.12530v1
- Date: Thu, 21 Sep 2023 23:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 16:33:05.987754
- Title: A Sentence Speaks a Thousand Images: Domain Generalization through
Distilling CLIP with Language Guidance
- Title(参考訳): 数千のイメージを語る文章:CLIPを言語指導で拡張するドメインの一般化
- Authors: Zeyi Huang, Andy Zhou, Zijian Lin, Mu Cai, Haohan Wang, Yong Jae Lee
- Abstract要約: 大規模視覚言語モデルにおける最近の進歩を生かした領域一般化のための新しい手法を提案する。
鍵となる技術的貢献は、生徒の学習した画像表現が教師の学習したテキスト表現に近いことを要求する新しいタイプの正規化である。
提案手法はRISEと呼ばれ,様々なベンチマークデータセットを用いて評価し,最先端の領域一般化手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 41.793995960478355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain generalization studies the problem of training a model with samples
from several domains (or distributions) and then testing the model with samples
from a new, unseen domain. In this paper, we propose a novel approach for
domain generalization that leverages recent advances in large vision-language
models, specifically a CLIP teacher model, to train a smaller model that
generalizes to unseen domains. The key technical contribution is a new type of
regularization that requires the student's learned image representations to be
close to the teacher's learned text representations obtained from encoding the
corresponding text descriptions of images. We introduce two designs of the loss
function, absolute and relative distance, which provide specific guidance on
how the training process of the student model should be regularized. We
evaluate our proposed method, dubbed RISE (Regularized Invariance with Semantic
Embeddings), on various benchmark datasets and show that it outperforms several
state-of-the-art domain generalization methods. To our knowledge, our work is
the first to leverage knowledge distillation using a large vision-language
model for domain generalization. By incorporating text-based information, RISE
improves the generalization capability of machine learning models.
- Abstract(参考訳): ドメイン一般化は、複数のドメイン(または分布)のサンプルでモデルをトレーニングし、新しい未知のドメインのサンプルでモデルをテストする問題を研究する。
本稿では,近年の大規模視覚言語モデル(特にクリップ教師モデル)の進歩を活かし,未認識領域に一般化した小型モデルを訓練する,新たなドメイン一般化手法を提案する。
重要な技術的貢献は、学生の学習した画像表現を、対応する画像のテキスト記述を符号化して得られた教師の学習したテキスト表現に近づけるように要求する新しいタイプの正規化である。
本稿では,学生モデルの学習過程の正規化に関する具体的なガイダンスを提供するために,損失関数の絶対距離と相対距離の2つの設計を導入する。
提案手法である rise (regularized invariance with semantic embeddeds) を様々なベンチマークデータセット上で評価し,最先端のドメイン一般化手法よりも優れていることを示す。
我々の知識にとって、我々の研究はドメイン一般化のための大きな視覚言語モデルを用いて知識蒸留を利用する最初のものである。
テキストベースの情報を組み込むことで、RISEは機械学習モデルの一般化能力を向上させる。
関連論文リスト
- VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。
VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。
本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文 参考訳(メタデータ) (2024-09-23T04:50:36Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Grounding Visual Representations with Texts for Domain Generalization [9.554646174100123]
相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
論文 参考訳(メタデータ) (2022-07-21T03:43:38Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Generalizable Model-agnostic Semantic Segmentation via Target-specific
Normalization [24.14272032117714]
一般化可能なセマンティックセグメンテーションタスクのための新しいドメイン一般化フレームワークを提案する。
モデルに依存しない学習を利用してドメインシフト問題をシミュレートする。
観測対象領域と観測対象領域間のデータ分散の相違を考慮し、目標固有正規化方式を開発する。
論文 参考訳(メタデータ) (2020-03-27T09:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。