論文の概要: Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2506.18504v1
- Date: Mon, 23 Jun 2025 10:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.944628
- Title: Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey
- Title(参考訳): ビジョンランゲージモデルを新しいドメインに一般化する:包括的調査
- Authors: Xinyao Li, Jingjing Li, Fengling Li, Lei Zhu, Yang Yang, Heng Tao Shen,
- Abstract要約: 視覚言語事前学習は、視覚とテキストの両モードの強みを統合する変換技術として登場した。
本調査は, VLM文献における一般化設定, 方法論, ベンチマーク, 結果の総合的な要約を目的とする。
- 参考スコア(独自算出の注目度): 55.97518817219619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, vision-language pretraining has emerged as a transformative technique that integrates the strengths of both visual and textual modalities, resulting in powerful vision-language models (VLMs). Leveraging web-scale pretraining data, these models exhibit strong zero-shot capabilities. However, their performance often deteriorates when confronted with domain-specific or specialized generalization tasks. To address this, a growing body of research focuses on transferring or generalizing the rich knowledge embedded in VLMs to various downstream applications. This survey aims to comprehensively summarize the generalization settings, methodologies, benchmarking and results in VLM literatures. Delving into the typical VLM structures, current literatures are categorized into prompt-based, parameter-based and feature-based methods according to the transferred modules. The differences and characteristics in each category are furthered summarized and discussed by revisiting the typical transfer learning (TL) settings, providing novel interpretations for TL in the era of VLMs. Popular benchmarks for VLM generalization are further introduced with thorough performance comparisons among the reviewed methods. Following the advances in large-scale generalizable pretraining, this survey also discusses the relations and differences between VLMs and up-to-date multimodal large language models (MLLM), e.g., DeepSeek-VL. By systematically reviewing the surging literatures in vision-language research from a novel and practical generalization prospective, this survey contributes to a clear landscape of current and future multimodal researches.
- Abstract(参考訳): 近年、視覚言語事前学習は、視覚とテキストの両モードの強みを統合し、強力な視覚言語モデル(VLM)をもたらす変換技術として出現している。
Webスケールの事前トレーニングデータを活用することで、これらのモデルは強力なゼロショット機能を示す。
しかし、それらの性能はドメイン固有の、あるいは専門的な一般化タスクに直面すると劣化することが多い。
これを解決するために、VLMに埋め込まれた豊富な知識を様々な下流アプリケーションに転送したり、一般化したりすることに注力する研究機関が増えている。
本調査は, VLM文献における一般化設定, 方法論, ベンチマーク, 結果の総合的な要約を目的とする。
典型的なVLM構造を織り込んだ現在の文献は、転送されたモジュールに応じて、プロンプトベース、パラメータベース、特徴ベースのメソッドに分類される。
各カテゴリにおける違いと特徴は、VLM時代におけるTLの新たな解釈として、典型的な転写学習(TL)設定を再考することによって、さらに要約され、議論される。
VLMの一般化のための一般的なベンチマークはさらに導入され、レビューされた手法間で徹底的な性能比較が行われた。
大規模一般化型事前学習の進展に伴い,VLMと最新のマルチモーダル大言語モデル(MLLM, DeepSeek-VL)の関係と相違についても検討した。
本研究は,視覚言語研究の進展する文献を,斬新で実践的な一般化の展望から体系的にレビューすることによって,現在および将来のマルチモーダル研究の明確な展望に寄与する。
関連論文リスト
- Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。
本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文 参考訳(メタデータ) (2025-05-29T03:40:21Z) - An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。
クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。
ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文 参考訳(メタデータ) (2025-05-29T03:09:15Z) - Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges [6.530386181196826]
VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の共通点において、トランスフォーメーショントピックとして登場した。
研究の急速な進歩と様々なアプリケーションでの人気が高まる中、我々はVLMの総合的な調査を行っている。
論文 参考訳(メタデータ) (2025-01-04T04:59:33Z) - Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark [0.0]
MTEB(Massive Text Embedding Benchmark)におけるテキスト埋め込みの最高性能に着目したユニバーサルテキスト埋め込みモデルの進歩について概説する。
詳細な比較と分析を通じて、この分野における重要な貢献と限界を強調し、将来的な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-05-27T09:52:54Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。