Fugu-MT 論文翻訳(概要): Large Language Models as Visual Cross-Domain Learners

論文の概要: Large Language Models as Visual Cross-Domain Learners

arxiv url: http://arxiv.org/abs/2401.03253v1
Date: Sat, 6 Jan 2024 16:33:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 19:37:55.609086
Title: Large Language Models as Visual Cross-Domain Learners
Title（参考訳）: ビジュアルクロスドメイン学習者としての大規模言語モデル
Authors: Shuhao Chen, Yulong Zhang, Weisen Jiang, Jiangang Lu, and Yu Zhang
Abstract要約: クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。伝統的な手法は画像のモダリティのみにのみ焦点をあて、ドメインシフトを軽減するためにテキストのモダリティの使用を無視する。 Visual Cross-dOmain Learningers (LLaVO) としてLarge Languageモデルを提案する。
参考スコア（独自算出の注目度）: 7.352822795984628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances achieved by deep learning models rely on the independent and identically distributed assumption, hindering their applications in real-world scenarios with domain shifts. To address the above issues, cross-domain learning aims at extracting domain-invariant knowledge to reduce the domain shift between training and testing data. However, in visual cross-domain learning, traditional methods concentrate solely on the image modality, neglecting the use of the text modality to alleviate the domain shift. In this work, we propose Large Language models as Visual cross-dOmain learners (LLaVO). LLaVO uses vision-language models to convert images into detailed textual descriptions. A large language model is then finetuned on textual descriptions of the source/target domain generated by a designed instruction template. Extensive experimental results on various cross-domain tasks under the domain generalization and unsupervised domain adaptation settings have demonstrated the effectiveness of the proposed method.
Abstract（参考訳）: ディープラーニングモデルによって達成された最近の進歩は、独立かつ同一に分散した仮定に依存しており、ドメインシフトを伴う現実世界のシナリオでアプリケーションを妨げる。上記の問題に対処するため、クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。しかし、視覚的なクロスドメイン学習では、従来の手法は画像モダリティのみに集中し、ドメインシフトを緩和するためにテキストモダリティの使用を無視する。本研究では,Large Language Model を Visual Cross-dOmain Learningers (LLaVO) として提案する。 LLaVOは視覚言語モデルを使用して画像を詳細なテキスト記述に変換する。大きな言語モデルは、設計した命令テンプレートによって生成されたソース/ターゲットドメインのテキスト記述に基づいて微調整される。ドメイン一般化と非教師なしドメイン適応設定下での様々なクロスドメインタスクに関する広範囲な実験結果が提案手法の有効性を実証した。

関連論文リスト

Prompt Disentanglement via Language Guidance and Representation Alignment for Domain Generalization [75.88719716002014]
ドメイン一般化 (Domain Generalization, DG) は、目に見えないターゲットドメインに対して効果的に機能する汎用モデルの開発を目指している。 VFM(Pre-trained Visual Foundation Models)の最近の進歩は、ディープラーニングモデルの一般化能力を向上する大きな可能性を示している。 VFMの制御可能で柔軟な言語プロンプトを活用することで,この問題に対処することを提案する。
論文参考訳（メタデータ） (2025-07-03T03:52:37Z)
WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。 WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文参考訳（メタデータ） (2024-05-28T17:46:27Z)
Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文参考訳（メタデータ） (2024-04-10T16:44:11Z)
Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation [2.104191333263349]
現在の視覚的接地法は、視覚的特徴と言語的特徴を得るために、訓練済みの視覚的および言語的バックボーンを独立して利用する。この問題は、現在の視覚的接地法で使用されるシングルモーダルトレーニングバックボーン間のドメインギャップから生じる。本稿では,視覚的グラウンド化作業の指針となるマルチモーダル事前学習モデルを蒸留する,視覚的グラウンド化のためのエンパワーディング事前学習モデルを提案する。
論文参考訳（メタデータ） (2023-12-29T15:32:11Z)
Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。提案手法は,即時学習のための新しい最先端結果を実現する。
論文参考訳（メタデータ） (2023-12-12T08:49:39Z)
Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-30T02:59:49Z)
A Sentence Speaks a Thousand Images: Domain Generalization through Distilling CLIP with Language Guidance [41.793995960478355]
大規模視覚言語モデルにおける最近の進歩を生かした領域一般化のための新しい手法を提案する。鍵となる技術的貢献は、生徒の学習した画像表現が教師の学習したテキスト表現に近いことを要求する新しいタイプの正規化である。提案手法はRISEと呼ばれ,様々なベンチマークデータセットを用いて評価し,最先端の領域一般化手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-09-21T23:06:19Z)
Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation [45.02052030837188]
我々は、新しい教師なしドメイン適応フレームワークであるオープン語彙ドメイン適応(OVDA)について研究する。視覚と言語間の相乗効果を利用したPEST(Prompt Ensemble Self-Trening)技術の設計を行う。 PESTは、10の画像認識タスクで最先端のタスクを一貫して上回る。
論文参考訳（メタデータ） (2023-06-29T03:39:35Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。 ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文参考訳（メタデータ） (2021-08-16T13:16:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。