論文の概要: A Foundational Multi-Modal Model for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2508.04746v1
- Date: Wed, 06 Aug 2025 06:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.589028
- Title: A Foundational Multi-Modal Model for Few-Shot Learning
- Title(参考訳): ファウショット学習のための基礎的マルチモーダルモデル
- Authors: Pengtao Dang, Tingbo Guo, Sha Cao, Chi Zhang,
- Abstract要約: FSL(Few-shot Learning)は、少数のラベル付き例からモデルを一般化することを目的としている。
本稿では,大規模マルチモーダルモデル(LMMM)がFSLモデルの一般化を大幅に改善できることを示すことによって,FSLに対する革新的なアプローチを提案する。
我々のデータセットとフレームワークは統一的でスケーラブルなソリューションを提供し、データスカース科学領域におけるLMMMの適用障壁を著しく減らします。
- 参考スコア(独自算出の注目度): 4.57727355942957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning (FSL) is a machine learning paradigm that aims to generalize models from a small number of labeled examples, typically fewer than 10 per class. FSL is particularly crucial in biomedical, environmental, materials, and mechanical sciences, where samples are limited and data collection is often prohibitively costly, time-consuming, or ethically constrained. In this study, we present an innovative approach to FSL by demonstrating that a Large Multi-Modal Model (LMMM), trained on a set of independent tasks spanning diverse domains, task types, and input modalities, can substantially improve the generalization of FSL models, outperforming models based on conventional meta-learning on tasks of the same type. To support this, we first constructed a Multi-Modal Model Few-shot Dataset (M3FD, over 10K+ few-shot samples), which includes 2D RGB images, 2D/3D medical scans, tabular and time-course datasets, from which we manually curated FSL tasks such as classification. We further introduced M3F (Multi-Modal Model for Few-shot learning framework), a novel Large Multi-Modal Model framework tailored for data-constrained scientific applications. M3F supports a wide range of scientific data types through a modular pipeline. By fine-tuning the model on M3FD, M3F improves model performance, making LMMM feasible for real-world FSL deployment. The source code is located at https://github.com/ptdang1001/M3F. To democratize access to complex FSL data and promote reproducibility for public usage, M3FD is paired with a flexible and user-friendly tool that enables efficient querying, task-specific sampling, and preprocessing. Together, our dataset and framework offer a unified, scalable solution that significantly lowers the barrier to applying LMMMs in data-scarce scientific domains.
- Abstract(参考訳): FSL(Few-shot Learning)は、少数のラベル付き例からモデルを一般化することを目的とした機械学習パラダイムである。
FSLは特に、バイオメディカル、環境、材料、機械科学において重要であり、サンプルは限られており、データ収集は、しばしば費用がかかり、時間がかかり、倫理的に制約される。
本研究では,多様な領域,タスクタイプ,入力モダリティにまたがる独立したタスクセットに基づいて訓練された大規模マルチモーダルモデル(LMMM)が,FSLモデルの一般化を大幅に改善できることを実証し,FSLに対する革新的なアプローチを提案する。
これをサポートするために,まず2次元RGB画像,2D/3D医療スキャン,表や時間軸データセットを含むM3FD(Multi-Modal Model Few-shot Dataset)を構築し,分類などのFSLタスクを手作業でキュレートした。
さらに,データ制約科学応用に適したM3F(Multi-Modal Model for Few-shot Learning framework)を新たに導入した。
M3Fはモジュールパイプラインを通じて幅広い科学的データタイプをサポートする。
M3FDでモデルを微調整することで、M3Fはモデル性能を改善し、実世界のFSLデプロイメントでLMMMを実現する。
ソースコードはhttps://github.com/ptdang1001/M3Fにある。
複雑なFSLデータへのアクセスを民主化し、パブリック使用のための再現性を促進するため、M3FDは、効率的なクエリ、タスク固有のサンプリング、前処理を可能にするフレキシブルでユーザフレンドリなツールと組み合わせられる。
我々のデータセットとフレームワークは統合されたスケーラブルなソリューションを提供しており、データスカース科学領域におけるLMMMの適用障壁を大幅に減らします。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Multi-convex Programming for Discrete Latent Factor Models Prototyping [8.322623345761961]
本稿では,CVXPYをベースとした汎用フレームワークを提案する。
我々のフレームワークはフレキシブルで、DLFMパラメータや潜在要因に対する正規化用語と制約の統合を本質的にサポートしています。
論文 参考訳(メタデータ) (2025-04-02T07:33:54Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - On Domain-Adaptive Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。
データ合成、トレーニングパイプライン、タスク評価に重点を置いています。
バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z) - Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、あらゆるエンコーダを最小限の微調整なしで競争力のあるマルチモーダルモデルに変換する汎用的な融合フレームワークである。
本研究では, MM-Legoをモデルマージ法として用いることで, 微調整を伴わずに, エンドツーエンド融合モデルとの競合性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-05-30T11:14:01Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - MDFM: Multi-Decision Fusing Model for Few-Shot Learning [16.47647579893923]
本稿では, モデルの有効性とロバスト性を高めるために, MDFM (Multi-Decision Fusing Model) を提案する。
提案手法を5つのベンチマークデータセットで評価し,最新技術と比較して3.4%-7.3%の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-01T18:13:09Z) - Federated Mutual Learning [65.46254760557073]
Federated Mutual Leaning (FML)は、クライアントが汎用モデルとパーソナライズされたモデルを独立してトレーニングすることを可能にする。
実験により、FMLは一般的なフェデレート学習環境よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-06-27T09:35:03Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。