論文の概要: FedVLMBench: Benchmarking Federated Fine-Tuning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.09638v1
- Date: Wed, 11 Jun 2025 11:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.903771
- Title: FedVLMBench: Benchmarking Federated Fine-Tuning of Vision-Language Models
- Title(参考訳): FedVLMBench: ビジョンランゲージモデルのフェデレーションファインチューニングのベンチマーク
- Authors: Weiying Zheng, Ziyue Lin, Pengxin Guo, Yuyin Zhou, Feifei Wang, Liangqiong Qu,
- Abstract要約: VLM(Vision-Language Models)は、視覚情報とテキスト情報を統合したものである。
最近の取り組みでは、プライバシー問題に対処するために、VLMの微調整にフェデレートラーニング(FL)を導入している。
We present FedVLMBench, first systematic benchmark for federated fine-tuning of VLMs。
- 参考スコア(独自算出の注目度): 15.102237976107645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable capabilities in cross-modal understanding and generation by integrating visual and textual information. While instruction tuning and parameter-efficient fine-tuning methods have substantially improved the generalization of VLMs, most existing approaches rely on centralized training, posing challenges for deployment in domains with strict privacy requirements like healthcare. Recent efforts have introduced Federated Learning (FL) into VLM fine-tuning to address these privacy concerns, yet comprehensive benchmarks for evaluating federated fine-tuning strategies, model architectures, and task generalization remain lacking. In this work, we present \textbf{FedVLMBench}, the first systematic benchmark for federated fine-tuning of VLMs. FedVLMBench integrates two mainstream VLM architectures (encoder-based and encoder-free), four fine-tuning strategies, five FL algorithms, six multimodal datasets spanning four cross-domain single-task scenarios and two cross-domain multitask settings, covering four distinct downstream task categories. Through extensive experiments, we uncover key insights into the interplay between VLM architectures, fine-tuning strategies, data heterogeneity, and multi-task federated optimization. Notably, we find that a 2-layer multilayer perceptron (MLP) connector with concurrent connector and LLM tuning emerges as the optimal configuration for encoder-based VLMs in FL. Furthermore, current FL methods exhibit significantly higher sensitivity to data heterogeneity in vision-centric tasks than text-centric ones, across both encoder-free and encoder-based VLM architectures. Our benchmark provides essential tools, datasets, and empirical guidance for the research community, offering a standardized platform to advance privacy-preserving, federated training of multimodal foundation models.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚情報とテキスト情報を統合することで、モーダル間理解と生成において顕著な能力を示した。
命令チューニングとパラメータ効率の良い微調整手法は、VLMの一般化を大幅に改善しているが、既存のアプローチは集中型トレーニングに依存しており、医療などの厳格なプライバシ要件を持つドメインに展開する上での課題を提起している。
近年、これらのプライバシー問題に対処するために、フェデレートラーニング(FL)をVLMに導入しているが、フェデレートされた微調整戦略、モデルアーキテクチャ、タスク一般化を評価するための包括的なベンチマークは、いまだに欠落している。
本稿では,VLM のファインチューニングのための最初の体系的ベンチマークである \textbf{FedVLMBench} を紹介する。
FedVLMBenchは、2つのメインストリームのVLMアーキテクチャ(エンコーダベースとエンコーダフリー)、4つの微調整戦略、5つのFLアルゴリズム、6つのマルチモーダルデータセットが4つのクロスドメインシングルタスクシナリオにまたがる6つのクロスドメインマルチタスク設定と、2つのクロスドメインマルチタスク設定を統合し、4つのダウンストリームタスクカテゴリをカバーする。
広範な実験を通じて、VLMアーキテクチャ間の相互作用、微調整戦略、データの均一性、マルチタスクのフェデレーション最適化に関する重要な洞察を明らかにする。
特に,コンカレントコネクタとLCMチューニングを備えた2層多層パーセプトロン(MLP)コネクタが,FLにおけるエンコーダベースのVLMの最適構成として現れる。
さらに、現在のFL法は、エンコーダフリーとエンコーダベース両方のVLMアーキテクチャにおいて、テキスト中心のタスクよりも、視覚中心のタスクにおけるデータ不均一性に対する感度が著しく高い。
我々のベンチマークは、研究コミュニティに不可欠なツール、データセット、実証的なガイダンスを提供し、プライバシー保護、多要素基盤モデルの連合的トレーニングを促進するための標準化されたプラットフォームを提供する。
関連論文リスト
- FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models [43.62847972139202]
大規模言語モデル(LLM)は様々な領域で最先端の成果を上げてきたが、その開発は大量の公開データに依存している。
この研究は、現実世界のアプリケーションのためのプライバシ保護、ドメイン特化LDMの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-06-03T14:54:12Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。