論文の概要: Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in Images and Videos
- arxiv url: http://arxiv.org/abs/2403.05535v3
- Date: Thu, 6 Jun 2024 01:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:52:38.483228
- Title: Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in Images and Videos
- Title(参考訳): Tell, Don't Show!: 画像とビデオのドメイン間で言語指導が伝達される
- Authors: Tarun Kalluri, Bodhisattwa Prasad Majumder, Manmohan Chandraker,
- Abstract要約: ラベル付きソースから未ラベルのターゲットデータへの識別的知識の堅牢な転送をドメインギャップでガイドするフレームワークであるLaGTranを紹介する。
意味的にリッチなテキストモダリティがより好ましい転送特性を持つという我々の観察に触発された我々は、ソース学習されたテキスト分類器を用いて、ターゲットテキスト記述の予測を生成するための転送機構を考案した。
言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する以前のアプローチよりもはるかに優れています。
- 参考スコア(独自算出の注目度): 69.29778009769862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LaGTran, a novel framework that utilizes text supervision to guide robust transfer of discriminative knowledge from labeled source to unlabeled target data with domain gaps. While unsupervised adaptation methods have been established to address this problem, they show limitations in handling challenging domain shifts due to their exclusive operation within the pixel-space. Motivated by our observation that semantically richer text modality has more favorable transfer properties, we devise a transfer mechanism to use a source-trained text-classifier to generate predictions on the target text descriptions, and utilize these predictions as supervision for the corresponding images. Our approach driven by language guidance is surprisingly easy and simple, yet significantly outperforms all prior approaches on challenging datasets like GeoNet and DomainNet, validating its extreme effectiveness. To further extend the scope of our study beyond images, we introduce a new benchmark called Ego2Exo to study ego-exo transfer in videos and find that our language-aided approach LaGTran yields significant gains in this highly challenging and non-trivial transfer setting. Code, models, and proposed datasets are publicly available at https://tarun005.github.io/lagtran/.
- Abstract(参考訳): テキスト管理を利用した新しいフレームワークであるLaGTranを導入し、ラベル付きソースからラベル付きターゲットデータへの識別的知識の堅牢な移行をドメインギャップで導く。
この問題を解決するために教師なし適応法が確立されているが、ピクセル空間内での排他的操作のため、ドメインシフトに挑戦する際の制限を示す。
意味的にリッチなテキストのモダリティがより好ましい転送特性を持つという私たちの観察に触発された我々は、ソース学習されたテキスト分類器を使用して、対象のテキスト記述の予測を生成し、これらの予測を対応する画像の監督として利用するトランスファー機構を考案した。
言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する従来のアプローチよりもはるかに優れています。
画像以外の研究範囲をさらに拡大するため,Ego2Exoという新しいベンチマークを導入し,ビデオにおけるエゴ・エクソ・トランスファーの研究を行い,言語支援アプローチであるLaGTranが,この高度に困難かつ非自明なトランスファー設定において大きな利益をもたらすことを発見した。
コード、モデル、提案されたデータセットはhttps://tarun005.github.io/lagtran/.comで公開されている。
関連論文リスト
- VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Semantic-aware Message Broadcasting for Efficient Unsupervised Domain
Adaptation [40.939984198850496]
教師なしドメイン適応(UDA)のための,より情報的かつ柔軟な特徴アライメントを可能にする,セマンティック・アウェア・メッセージ・ブロードキャスト(SAMB)を提案する。
学習したグループトークンのグループをノードとして導入し、すべての画像トークンからグローバル情報を集約する。
このようにして、メッセージブロードキャストはグループトークンに対して、効果的なドメインアライメントのためのより情報的で多様な情報を学ぶことを奨励します。
論文 参考訳(メタデータ) (2022-12-06T04:09:47Z) - Who are you referring to? Weakly supervised coreference resolution with
multimodal grounding [44.502102006343094]
参照解決は、テキスト内の同じエンティティを参照する単語やフレーズを識別することを目的としている。
既存の画像テキストデータセットの多くは、コアフェレント表現のない短い文を含んでいる。
画像とテキストのペアによる弱教師付きグラウンドリングと,事前の言語知識を用いた正規化により,コア参照チェーンの同定を学習する手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T13:33:42Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Structured Domain Adaptation with Online Relation Regularization for
Unsupervised Person Re-ID [62.90727103061876]
Unsupervised Domain adapt(UDA)は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、ラベルなしのターゲットドメインデータセットに適応させることを目的としている。
本稿では,オンライン関係整合性正規化項を用いたエンドツーエンドなドメイン適応フレームワークを提案する。
提案手法は,複数のUDAタスクにおける人物再IDの最先端性能を実現することを目的としている。
論文 参考訳(メタデータ) (2020-03-14T14:45:18Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z) - Learning to adapt class-specific features across domains for semantic
segmentation [36.36210909649728]
本論文では,クラス情報毎に考慮し,ドメイン間の特徴を適応させることを学習する新しいアーキテクチャを提案する。
我々は最近導入されたStarGANアーキテクチャを画像翻訳のバックボーンとして採用している。
論文 参考訳(メタデータ) (2020-01-22T23:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。