論文の概要: Large Language Models as Visual Cross-Domain Learners
- arxiv url: http://arxiv.org/abs/2401.03253v1
- Date: Sat, 6 Jan 2024 16:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:37:55.609086
- Title: Large Language Models as Visual Cross-Domain Learners
- Title(参考訳): ビジュアルクロスドメイン学習者としての大規模言語モデル
- Authors: Shuhao Chen, Yulong Zhang, Weisen Jiang, Jiangang Lu, and Yu Zhang
- Abstract要約: クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
伝統的な手法は画像のモダリティのみにのみ焦点をあて、ドメインシフトを軽減するためにテキストのモダリティの使用を無視する。
Visual Cross-dOmain Learningers (LLaVO) としてLarge Languageモデルを提案する。
- 参考スコア(独自算出の注目度): 7.352822795984628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances achieved by deep learning models rely on the independent and
identically distributed assumption, hindering their applications in real-world
scenarios with domain shifts. To address the above issues, cross-domain
learning aims at extracting domain-invariant knowledge to reduce the domain
shift between training and testing data. However, in visual cross-domain
learning, traditional methods concentrate solely on the image modality,
neglecting the use of the text modality to alleviate the domain shift. In this
work, we propose Large Language models as Visual cross-dOmain learners (LLaVO).
LLaVO uses vision-language models to convert images into detailed textual
descriptions. A large language model is then finetuned on textual descriptions
of the source/target domain generated by a designed instruction template.
Extensive experimental results on various cross-domain tasks under the domain
generalization and unsupervised domain adaptation settings have demonstrated
the effectiveness of the proposed method.
- Abstract(参考訳): ディープラーニングモデルによって達成された最近の進歩は、独立かつ同一に分散した仮定に依存しており、ドメインシフトを伴う現実世界のシナリオでアプリケーションを妨げる。
上記の問題に対処するため、クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
しかし、視覚的なクロスドメイン学習では、従来の手法は画像モダリティのみに集中し、ドメインシフトを緩和するためにテキストモダリティの使用を無視する。
本研究では,Large Language Model を Visual Cross-dOmain Learningers (LLaVO) として提案する。
LLaVOは視覚言語モデルを使用して画像を詳細なテキスト記述に変換する。
大きな言語モデルは、設計した命令テンプレートによって生成されたソース/ターゲットドメインのテキスト記述に基づいて微調整される。
ドメイン一般化と非教師なしドメイン適応設定下での様々なクロスドメインタスクに関する広範囲な実験結果が提案手法の有効性を実証した。
関連論文リスト
- Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context
Learning [48.22913073217633]
大規模言語モデル(LLM)は、インコンテキスト学習(in-context learning)として知られる少数の推論でその能力を示した。
本稿では,UDA問題を文脈内学習環境下で研究し,ソースドメインからターゲットドメインへの言語モデルの適用を,ターゲットラベルを使わずに行う。
我々は、異なるLMアーキテクチャを考慮し、異なるプロンプトとトレーニング戦略を考案し、言語モデリングを通してターゲット分布を学習する。
論文 参考訳(メタデータ) (2023-11-20T06:06:20Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - A Sentence Speaks a Thousand Images: Domain Generalization through
Distilling CLIP with Language Guidance [41.793995960478355]
大規模視覚言語モデルにおける最近の進歩を生かした領域一般化のための新しい手法を提案する。
鍵となる技術的貢献は、生徒の学習した画像表現が教師の学習したテキスト表現に近いことを要求する新しいタイプの正規化である。
提案手法はRISEと呼ばれ,様々なベンチマークデータセットを用いて評価し,最先端の領域一般化手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-21T23:06:19Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文 参考訳(メタデータ) (2022-09-06T10:06:10Z) - Variational Transfer Learning using Cross-Domain Latent Modulation [1.9662978733004601]
本稿では,効率的な転送学習を実現するために,新しいドメイン間遅延変調機構を変分オートエンコーダフレームワークに導入する。
ソース領域とターゲット領域の深部表現は、まず統一推論モデルにより抽出され、勾配逆数を用いて整列される。
学習した深層表現は、一貫性の制約が適用される代替ドメインの潜在エンコーディングにクロスモデレートされる。
論文 参考訳(メタデータ) (2022-05-31T03:47:08Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。