論文の概要: Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in
Images and Videos
- arxiv url: http://arxiv.org/abs/2403.05535v1
- Date: Fri, 8 Mar 2024 18:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 12:49:14.316194
- Title: Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in
Images and Videos
- Title(参考訳): 見せないで!
画像とビデオにおけるドメイン間の言語指導
- Authors: Tarun Kalluri and Bodhisattwa Prasad Majumder and Manmohan Chandraker
- Abstract要約: ラベル付きソースから未ラベルのターゲットデータへの識別的知識の堅牢な移行をドメインシフトでガイドするフレームワークであるLaGTranを紹介する。
意味的にリッチなテキストモダリティがより好ましい転送特性を持つという我々の観察に触発された我々は、ソース学習されたテキスト分類器を用いて、ターゲットテキスト記述の予測を生成するための転送機構を考案した。
言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する以前のアプローチよりもはるかに優れています。
- 参考スコア(独自算出の注目度): 75.70284643815685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LaGTran, a novel framework that utilizes readily available or
easily acquired text descriptions to guide robust transfer of discriminative
knowledge from labeled source to unlabeled target data with domain shifts.
While unsupervised adaptation methods have been established to address this
problem, they show limitations in handling challenging domain shifts due to
their exclusive operation within the pixel-space. Motivated by our observation
that semantically richer text modality has more favorable transfer properties,
we devise a transfer mechanism to use a source-trained text-classifier to
generate predictions on the target text descriptions, and utilize these
predictions as supervision for the corresponding images. Our approach driven by
language guidance is surprisingly easy and simple, yet significantly
outperforms all prior approaches on challenging datasets like GeoNet and
DomainNet, validating its extreme effectiveness. To further extend the scope of
our study beyond images, we introduce a new benchmark to study ego-exo transfer
in videos and find that our language-aided LaGTran yields significant gains in
this highly challenging and non-trivial transfer setting. Code, models, and
proposed datasets are publicly available at
https://tarun005.github.io/lagtran/.
- Abstract(参考訳): ラベル付きソースからラベル付きターゲットデータへの識別的知識の堅牢な転送をドメインシフトで導くために,手軽に入手可能あるいは容易に取得可能なテキスト記述を利用する新しいフレームワークであるLaGTranを紹介する。
この問題を解決するために教師なし適応法が確立されているが、ピクセル空間内の排他的操作のため、ドメインシフトの扱いに制限がある。
意味的にリッチなテキストモダリティがより有利な転送特性を持つという観察に動機づけられ、ソース学習されたテキスト分類器を使用して対象テキスト記述の予測を生成する転送機構を考案し、これらの予測を対応する画像の監督として活用する。
言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する従来のアプローチよりもはるかに優れています。
画像を超えて研究の範囲をさらに拡大するために,ビデオにおけるego-exo転送を研究するための新しいベンチマークを導入し,言語支援のlagtranが,この極めて困難で非自明な転送環境において大きな成果をもたらすことを見出します。
コード、モデル、提案されたデータセットはhttps://tarun005.github.io/lagtran/で公開されている。
関連論文リスト
- UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文 参考訳(メタデータ) (2024-11-11T12:25:02Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Semantic-aware Message Broadcasting for Efficient Unsupervised Domain
Adaptation [40.939984198850496]
教師なしドメイン適応(UDA)のための,より情報的かつ柔軟な特徴アライメントを可能にする,セマンティック・アウェア・メッセージ・ブロードキャスト(SAMB)を提案する。
学習したグループトークンのグループをノードとして導入し、すべての画像トークンからグローバル情報を集約する。
このようにして、メッセージブロードキャストはグループトークンに対して、効果的なドメインアライメントのためのより情報的で多様な情報を学ぶことを奨励します。
論文 参考訳(メタデータ) (2022-12-06T04:09:47Z) - Who are you referring to? Weakly supervised coreference resolution with
multimodal grounding [44.502102006343094]
参照解決は、テキスト内の同じエンティティを参照する単語やフレーズを識別することを目的としている。
既存の画像テキストデータセットの多くは、コアフェレント表現のない短い文を含んでいる。
画像とテキストのペアによる弱教師付きグラウンドリングと,事前の言語知識を用いた正規化により,コア参照チェーンの同定を学習する手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T13:33:42Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Structured Domain Adaptation with Online Relation Regularization for
Unsupervised Person Re-ID [62.90727103061876]
Unsupervised Domain adapt(UDA)は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、ラベルなしのターゲットドメインデータセットに適応させることを目的としている。
本稿では,オンライン関係整合性正規化項を用いたエンドツーエンドなドメイン適応フレームワークを提案する。
提案手法は,複数のUDAタスクにおける人物再IDの最先端性能を実現することを目的としている。
論文 参考訳(メタデータ) (2020-03-14T14:45:18Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z) - Learning to adapt class-specific features across domains for semantic
segmentation [36.36210909649728]
本論文では,クラス情報毎に考慮し,ドメイン間の特徴を適応させることを学習する新しいアーキテクチャを提案する。
我々は最近導入されたStarGANアーキテクチャを画像翻訳のバックボーンとして採用している。
論文 参考訳(メタデータ) (2020-01-22T23:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。