論文の概要: Few-shot Adaptation of Multi-modal Foundation Models: A Survey
- arxiv url: http://arxiv.org/abs/2401.01736v1
- Date: Wed, 3 Jan 2024 13:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:58:07.255683
- Title: Few-shot Adaptation of Multi-modal Foundation Models: A Survey
- Title(参考訳): マルチモーダル基礎モデルの少数ショット適応に関する調査
- Authors: Fan Liu, Tianshu Zhang, Wenwen Dai, Wenwen Cai Xiaocong Zhou, Delong
Chen
- Abstract要約: CLIPのようなマルチモーダル(ヴィジュアル言語)モデルは、従来の教師付き事前訓練モデルを置き換える。
医療画像やリモートセンシングのような細かな領域では、マルチモーダル基盤モデルの性能が望まれることが多い。
マルチモーダルモデルのための数ショット適応法における研究の進歩を紹介し,分析する。
- 参考スコア(独自算出の注目度): 10.277632793449746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal (vision-language) models, such as CLIP, are replacing traditional
supervised pre-training models (e.g., ImageNet-based pre-training) as the new
generation of visual foundation models. These models with robust and aligned
semantic representations learned from billions of internet image-text pairs and
can be applied to various downstream tasks in a zero-shot manner. However, in
some fine-grained domains like medical imaging and remote sensing, the
performance of multi-modal foundation models often leaves much to be desired.
Consequently, many researchers have begun to explore few-shot adaptation
methods for these models, gradually deriving three main technical approaches:
1) prompt-based methods, 2) adapter-based methods, and 3) external
knowledge-based methods. Nevertheless, this rapidly developing field has
produced numerous results without a comprehensive survey to systematically
organize the research progress. Therefore, in this survey, we introduce and
analyze the research advancements in few-shot adaptation methods for
multi-modal models, summarizing commonly used datasets and experimental setups,
and comparing the results of different methods. In addition, due to the lack of
reliable theoretical support for existing methods, we derive the few-shot
adaptation generalization error bound for multi-modal models. The theorem
reveals that the generalization error of multi-modal foundation models is
constrained by three factors: domain gap, model capacity, and sample size.
Based on this, we propose three possible solutions from the following aspects:
1) adaptive domain generalization, 2) adaptive model selection, and 3) adaptive
knowledge utilization.
- Abstract(参考訳): CLIPのようなマルチモーダル(ヴィジュアル言語)モデルは、新しい世代の視覚基盤モデルとして、従来の教師付き事前訓練モデル(例えば、ImageNetベースの事前訓練モデル)を置き換える。
これらのモデルは、数十億のインターネット画像テキストペアから学んだ堅牢で整合したセマンティック表現を持ち、ゼロショットで様々な下流タスクに適用することができる。
しかしながら、医用イメージングやリモートセンシングのような細粒度ドメインでは、マルチモーダル基礎モデルの性能が要求されることが多い。
その結果、多くの研究者がこれらのモデルの少数ショット適応法を探求し始め、徐々に3つの主要な技術的アプローチを導き出した。
1)プロンプトベース手法,
2)アダプタベースの方法,及び
3)外部知識に基づく手法。
それにもかかわらず、この急速に発展する分野は、研究の進捗を体系的に整理するための総合的な調査を行なわずに、多くの成果を生み出している。
そこで本研究では, マルチモーダルモデルに対する少数ショット適応法, 一般的なデータセットと実験装置を要約し, 異なる手法の結果を比較し, 研究の進歩と分析を行った。
さらに,既存手法に対する信頼性の高い理論的サポートが欠如していることから,マルチモーダルモデルに対する少数ショット適応一般化誤差を導出する。
この定理は、マルチモーダル基礎モデルの一般化誤差が、ドメインギャップ、モデル容量、サンプルサイズという3つの要因によって制約されていることを示している。
これに基づいて、以下の3つの側面から可能な解決策を提案する。
1)適応型ドメイン一般化
2)適応型モデル選択、及び
3)適応的知識利用。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Multimodal Federated Learning with Missing Modality via Prototype Mask
and Contrast [23.936677199734213]
本稿では,FedAvgベースのFederated Learningフレームワークにプロトタイプライブラリを導入する。
提案手法は,タスク校正されたトレーニング損失とモデルに依存しない一様性推論戦略を定式化するために,欠落したモダリティを表すマスクとしてプロトタイプを利用する。
ベースラインと比較して,トレーニング中に50%のモダリティが欠落し,一様性推論時に23.8%の精度で推論精度が3.7%向上した。
論文 参考訳(メタデータ) (2023-12-21T00:55:12Z) - Explore and Exploit the Diverse Knowledge in Model Zoo for Domain
Generalization [40.28810906825559]
本稿では,最強モデルに限らず,多様な事前学習モデルを統合するアルゴリズムを提案する。
提案手法は,様々なデータセットに対する最先端の実証結果を示し,多様な知識の活用によるメリットを検証した。
論文 参考訳(メタデータ) (2023-06-05T04:58:41Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。