論文の概要: Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research
- arxiv url: http://arxiv.org/abs/2405.08668v1
- Date: Tue, 14 May 2024 14:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:49:19.537148
- Title: Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research
- Title(参考訳): 科学におけるAIエクイティの促進: アクセシブルVLM研究のための汎用ドメインプロンプト学習
- Authors: Qinglong Cao, Yuntian Chen, Lu Lu, Hao Sun, Zhenzhong Zeng, Xiaokang Yang, Dongxiao Zhang,
- Abstract要約: 大規模ビジョンランゲージモデル(VLM)のための一般化ドメインプロンプト学習(GDPL)フレームワークを提案する。
GDPLは、広範囲のデータやリソースを必要とせずに、VLMの堅牢な認識能力を自然視から特殊領域に移行することを容易にする。
我々の枠組みは、学術と産業の障壁を超越し、持続的で包括的なVLM研究の道を開く。
- 参考スコア(独自算出の注目度): 44.87702042041601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Vision-Language Models (VLMs) have demonstrated exceptional performance in natural vision tasks, motivating researchers across domains to explore domain-specific VLMs. However, the construction of powerful domain-specific VLMs demands vast amounts of annotated data, substantial electrical energy, and computing resources, primarily accessible to industry, yet hindering VLM research in academia. To address this challenge and foster sustainable and equitable VLM research, we present the Generalized Domain Prompt Learning (GDPL) framework. GDPL facilitates the transfer of VLMs' robust recognition capabilities from natural vision to specialized domains, without the need for extensive data or resources. By leveraging small-scale domain-specific foundation models and minimal prompt samples, GDPL empowers the language branch with domain knowledge through quaternion networks, uncovering cross-modal relationships between domain-specific vision features and natural vision-based contextual embeddings. Simultaneously, GDPL guides the vision branch into specific domains through hierarchical propagation of generated vision prompt features, grounded in well-matched vision-language relations. Furthermore, to fully harness the domain adaptation potential of VLMs, we introduce a novel low-rank adaptation approach. Extensive experiments across diverse domains like remote sensing, medical imaging, geology, Synthetic Aperture Radar, and fluid dynamics, validate the efficacy of GDPL, demonstrating its ability to achieve state-of-the-art domain recognition performance in a prompt learning paradigm. Our framework paves the way for sustainable and inclusive VLM research, transcending the barriers between academia and industry.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(VLM)は、自然視タスクにおいて例外的な性能を示し、ドメインをまたいだ研究者がドメイン固有のVLMを探索する動機となっている。
しかし、強力なドメイン固有のVLMの構築には、大量の注釈付きデータ、相当な電気エネルギー、計算資源が要求される。
この課題に対処し、持続的で公平なVLM研究を促進するために、一般化ドメインプロンプト学習(GDPL)フレームワークを提案する。
GDPLは、広範囲のデータやリソースを必要とせずに、VLMの堅牢な認識能力を自然視から特殊領域に移行することを容易にする。
小規模のドメイン固有基盤モデルと最小限のプロンプトサンプルを活用することで、GDPLは、ドメイン固有の視覚特徴と自然な視覚ベースのコンテキスト埋め込みの間の相互関係を明らかにする4つのネットワークを通じて、ドメイン知識を持つ言語ブランチを強化します。
同時にGDPLは、よく整合した視覚言語関係に基づく、生成した視覚プロンプトの特徴の階層的伝播を通じて、視覚分岐を特定の領域に導く。
さらに,VLMの領域適応能力をフル活用するために,新しい低ランク適応手法を導入する。
リモートセンシング、医用イメージング、地質学、合成開口レーダ、流体力学といった多様な領域にわたる広範な実験は、GDPLの有効性を検証し、即時学習パラダイムで最先端のドメイン認識性能を達成する能力を示す。
我々の枠組みは、学術と産業の障壁を超越し、持続的で包括的なVLM研究の道を開く。
関連論文リスト
- Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [0.8232137862012223]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。
これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。
その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T18:08:44Z) - Investigating Continual Pretraining in Large Language Models: Insights
and Implications [9.591223887442704]
本稿では,大規模言語モデル(LLM)における継続学習の進化領域について考察する。
我々の主な重点は、LLMに様々なドメインからの新たな情報を統合する能力を持たせるために設計された、連続的なドメイン適応型事前訓練である。
モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-27T10:47:24Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - Universal Domain Adaptation for Robust Handling of Distributional Shifts
in NLP [25.4952909342458]
Universal Domain Adaptation (UniDA)はコンピュータビジョンの新しい研究領域として登場した。
本稿では,モデルの一般化可能性と堅牢性について,より詳細な視点を提供する自然言語のベンチマークを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:15:25Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。