Fugu-MT 論文翻訳(概要): F$^3$OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics

論文の概要: F$^3$OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics

arxiv url: http://arxiv.org/abs/2411.11912v1
Date: Sun, 17 Nov 2024 21:54:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.868392
Title: F$^3$OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics
Title（参考訳）: F$3$OCUS -- 多目的メタヒューリスティックスによる最適クライアント層更新戦略を用いたビジョン言語基礎モデルのフェデレートファインタニング
Authors: Pramit Saha, Felix Wagner, Divyanshu Mishra, Can Peng, Anshul Thakur, David Clifton, Konstantinos Kamnitsas, J. Alison Noble,
Abstract要約: 微調整において最も重要なVLM層を選択するクライアント固有の層重み付けスコアであるtextitviz. が与える影響について述べる。本稿では,F$3$OCUSと呼ばれる新しいレイヤ更新戦略を提案する。
参考スコア（独自算出の注目度）: 8.577808901433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective training of large Vision-Language Models (VLMs) on resource-constrained client devices in Federated Learning (FL) requires the usage of parameter-efficient fine-tuning (PEFT) strategies. To this end, we demonstrate the impact of two factors \textit{viz.}, client-specific layer importance score that selects the most important VLM layers for fine-tuning and inter-client layer diversity score that encourages diverse layer selection across clients for optimal VLM layer selection. We first theoretically motivate and leverage the principal eigenvalue magnitude of layerwise Neural Tangent Kernels and show its effectiveness as client-specific layer importance score. Next, we propose a novel layer updating strategy dubbed F$^3$OCUS that jointly optimizes the layer importance and diversity factors by employing a data-free, multi-objective, meta-heuristic optimization on the server. We explore 5 different meta-heuristic algorithms and compare their effectiveness for selecting model layers and adapter layers towards PEFT-FL. Furthermore, we release a new MedVQA-FL dataset involving overall 707,962 VQA triplets and 9 modality-specific clients and utilize it to train and evaluate our method. Overall, we conduct more than 10,000 client-level experiments on 6 Vision-Language FL task settings involving 58 medical image datasets and 4 different VLM architectures of varying sizes to demonstrate the effectiveness of the proposed method.
Abstract（参考訳）: フェデレートラーニング(FL)における資源制約されたクライアントデバイス上での大規模なビジョンランゲージモデル(VLM)の効果的なトレーニングには,パラメータ効率のよい微調整(PEFT)戦略を用いる必要がある。この目的のために、二つの因子が与える影響を実証する。クライアント固有のレイヤ重要度スコアで、細調整およびクライアント間層間層多様性スコアで最も重要なVLM層を選択し、クライアント間で多様な層選択を奨励し、最適なVLM層選択をします。まず,階層型ニューラルタンジェントカーネルの固有値大小を理論的に動機付け,活用し,クライアント固有の層重み付けスコアとしての有効性を示す。次に、F$^3$OCUSと呼ばれる新しいレイヤ更新戦略を提案する。これは、データフリー、マルチオブジェクト、メタヒューリスティックな最適化をサーバに導入することで、レイヤーの重要度と多様性を共同で最適化する。 5種類のメタヒューリスティックアルゴリズムを探索し,PEFT-FLに対するモデル層とアダプタ層の選択の有効性を比較した。さらに,707,962個のVQAトレーレットと9つのモダリティ特化クライアントを含む新たなMedVQA-FLデータセットを作成した。全体として、58の医療画像データセットと4つの異なるVLMアーキテクチャを含む6つのビジョンランゲージFLタスク設定に対して、10,000以上のクライアントレベル実験を行い、提案手法の有効性を実証した。

関連論文リスト

Rethinking Visual Layer Selection in Multimodal LLMs [46.091556112958884]
この研究は、浅い、中、深いカテゴリに類似した振る舞いを持つグループCLIP-ViT層に対するレイヤワイズ類似性アプローチを提案する。大規模MLLMにおける視覚層選択問題を再考し,1.4Bから7BまでのLLaVAスタイルのモデルを訓練する。 1) 深層はOCRタスクに必須であり,(2) 浅層と中層はカウント,位置決め,オブジェクトの局所化を含む推論タスクにおいて実質的に深層を上回り,(3) 浅層,中層,深層をまたいだ軽量な融合は,専門的な融合ベースラインと単一層を一貫して上回ります。
論文参考訳（メタデータ） (2025-04-30T09:07:10Z)
Layer-Aware Embedding Fusion for LLMs in Text Classifications [1.4250487522292254]
層認識型埋め込み選択法を提案し, 異なる層を定量的に評価し, 下流のNLPタスクにおいて最も重要なものを特定する方法について検討する。 4つの英語テキスト分類データセットの実験により、LLMの異なる層は、分類のための表現力の度合いが異なることが示された。また、モデル微調整を必要とせず、複数のLLMからの埋め込みを組み合わせることで、パフォーマンスが向上する可能性についても検討する。
論文参考訳（メタデータ） (2025-04-08T07:45:50Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。 ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文参考訳（メタデータ） (2024-10-15T16:53:26Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Exploring Selective Layer Fine-Tuning in Federated Learning [48.470385357429215]
フェデレートラーニング(FL)は,分散データを用いた基礎モデルの微調整のための,有望なパラダイムとして登場した。 FLにおける選択的層微調整について検討し、クライアントがローカルデータやリソースに応じて選択した層を調整できるフレキシブルなアプローチを強調した。
論文参考訳（メタデータ） (2024-08-28T07:48:39Z)
Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文参考訳（メタデータ） (2024-06-16T16:15:20Z)
Giving each task what it needs -- leveraging structured sparsity for tailored multi-task learning [4.462334751640166]
マルチタスク学習(MTL)フレームワークでは、各タスクは、低レベルから高レベルの属性まで、異なる特徴表現を要求する。この研究は、構造化された空間を利用して個々のタスクの特徴選択を洗練し、マルチタスクシナリオにおける全てのタスクのパフォーマンスを向上させるレイヤdマルチタスクモデルを導入する。
論文参考訳（メタデータ） (2024-06-05T08:23:38Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
Towards Optimal Customized Architecture for Heterogeneous Federated Learning with Contrastive Cloud-Edge Model Decoupling [20.593232086762665]
フェデレートラーニングは、有望な分散学習パラダイムとして、中央データ収集を必要とせずに、複数のネットワークエッジクライアントにわたるグローバルモデルの協調トレーニングを可能にする。我々はFedCMDと呼ばれる新しいフェデレーション学習フレームワークを提案する。私たちのモチベーションは、パーソナライズされた頭として異なるニューラルネットワーク層を選択するパフォーマンスを深く調査することで、現在の研究でパーソナライズされた頭として最後の層を厳格に割り当てることが常に最適であるとは限らない、ということです。
論文参考訳（メタデータ） (2024-03-04T05:10:28Z)
FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文参考訳（メタデータ） (2023-06-30T08:19:38Z)
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文参考訳（メタデータ） (2022-11-21T18:22:39Z)
Improving Privacy-Preserving Vertical Federated Learning by Efficient Communication with ADMM [62.62684911017472]
フェデレートラーニング(FL)により、デバイスは共有モデルを共同でトレーニングし、トレーニングデータをプライバシ目的でローカルに保つことができる。マルチヘッド(VIM)を備えたVFLフレームワークを導入し、各クライアントの別々のコントリビューションを考慮に入れます。 VIMは最先端技術に比べて性能が著しく向上し、収束が速い。
論文参考訳（メタデータ） (2022-07-20T23:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。