論文の概要: Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research
- arxiv url: http://arxiv.org/abs/2405.08668v1
- Date: Tue, 14 May 2024 14:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:49:19.537148
- Title: Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research
- Title(参考訳): 科学におけるAIエクイティの促進: アクセシブルVLM研究のための汎用ドメインプロンプト学習
- Authors: Qinglong Cao, Yuntian Chen, Lu Lu, Hao Sun, Zhenzhong Zeng, Xiaokang Yang, Dongxiao Zhang,
- Abstract要約: 大規模ビジョンランゲージモデル(VLM)のための一般化ドメインプロンプト学習(GDPL)フレームワークを提案する。
GDPLは、広範囲のデータやリソースを必要とせずに、VLMの堅牢な認識能力を自然視から特殊領域に移行することを容易にする。
我々の枠組みは、学術と産業の障壁を超越し、持続的で包括的なVLM研究の道を開く。
- 参考スコア(独自算出の注目度): 44.87702042041601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Vision-Language Models (VLMs) have demonstrated exceptional performance in natural vision tasks, motivating researchers across domains to explore domain-specific VLMs. However, the construction of powerful domain-specific VLMs demands vast amounts of annotated data, substantial electrical energy, and computing resources, primarily accessible to industry, yet hindering VLM research in academia. To address this challenge and foster sustainable and equitable VLM research, we present the Generalized Domain Prompt Learning (GDPL) framework. GDPL facilitates the transfer of VLMs' robust recognition capabilities from natural vision to specialized domains, without the need for extensive data or resources. By leveraging small-scale domain-specific foundation models and minimal prompt samples, GDPL empowers the language branch with domain knowledge through quaternion networks, uncovering cross-modal relationships between domain-specific vision features and natural vision-based contextual embeddings. Simultaneously, GDPL guides the vision branch into specific domains through hierarchical propagation of generated vision prompt features, grounded in well-matched vision-language relations. Furthermore, to fully harness the domain adaptation potential of VLMs, we introduce a novel low-rank adaptation approach. Extensive experiments across diverse domains like remote sensing, medical imaging, geology, Synthetic Aperture Radar, and fluid dynamics, validate the efficacy of GDPL, demonstrating its ability to achieve state-of-the-art domain recognition performance in a prompt learning paradigm. Our framework paves the way for sustainable and inclusive VLM research, transcending the barriers between academia and industry.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(VLM)は、自然視タスクにおいて例外的な性能を示し、ドメインをまたいだ研究者がドメイン固有のVLMを探索する動機となっている。
しかし、強力なドメイン固有のVLMの構築には、大量の注釈付きデータ、相当な電気エネルギー、計算資源が要求される。
この課題に対処し、持続的で公平なVLM研究を促進するために、一般化ドメインプロンプト学習(GDPL)フレームワークを提案する。
GDPLは、広範囲のデータやリソースを必要とせずに、VLMの堅牢な認識能力を自然視から特殊領域に移行することを容易にする。
小規模のドメイン固有基盤モデルと最小限のプロンプトサンプルを活用することで、GDPLは、ドメイン固有の視覚特徴と自然な視覚ベースのコンテキスト埋め込みの間の相互関係を明らかにする4つのネットワークを通じて、ドメイン知識を持つ言語ブランチを強化します。
同時にGDPLは、よく整合した視覚言語関係に基づく、生成した視覚プロンプトの特徴の階層的伝播を通じて、視覚分岐を特定の領域に導く。
さらに,VLMの領域適応能力をフル活用するために,新しい低ランク適応手法を導入する。
リモートセンシング、医用イメージング、地質学、合成開口レーダ、流体力学といった多様な領域にわたる広範な実験は、GDPLの有効性を検証し、即時学習パラダイムで最先端のドメイン認識性能を達成する能力を示す。
我々の枠組みは、学術と産業の障壁を超越し、持続的で包括的なVLM研究の道を開く。
関連論文リスト
- Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [1.1161827123148225]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。
これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。
その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T18:08:44Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - Universal Domain Adaptation for Robust Handling of Distributional Shifts
in NLP [25.4952909342458]
Universal Domain Adaptation (UniDA)はコンピュータビジョンの新しい研究領域として登場した。
本稿では,モデルの一般化可能性と堅牢性について,より詳細な視点を提供する自然言語のベンチマークを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:15:25Z) - Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization [5.124256074746721]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。
画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。
我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文 参考訳(メタデータ) (2023-08-28T08:54:27Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。