論文の概要: Fine-tuning Multimodal Transformers on Edge: A Parallel Split Learning Approach
- arxiv url: http://arxiv.org/abs/2502.06355v1
- Date: Mon, 10 Feb 2025 11:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:35.793021
- Title: Fine-tuning Multimodal Transformers on Edge: A Parallel Split Learning Approach
- Title(参考訳): エッジ上の微細チューニングマルチモーダルトランス:並列スプリット学習アプローチ
- Authors: Timo Fudala, Vasileios Tsouvalas, Nirvana Meratnia,
- Abstract要約: Split Learningは、指定されたカット層でモデルをパーティションして、計算集約的な操作をサーバにオフロードする。
本稿では,マルチモーダル変圧器を分散的に微調整する並列SL手法MPSLを提案する。
MPSLは軽量なクライアント側トークンライザと統一されたモダリティ非依存エンコーダを採用しており、タスク固有のニーズへの柔軟な適応を可能にしている。
- 参考スコア(独自算出の注目度): 1.297210402524609
- License:
- Abstract: Multimodal transformers integrate diverse data types like images, audio, and text, advancing tasks such as audio-visual understanding and image-text retrieval; yet their high parameterization limits deployment on resource-constrained edge devices. Split Learning (SL), which partitions models at a designated cut-layer to offload compute-intensive operations to the server, offers a promising approach for distributed training of multimodal transformers, though its application remains underexplored. We present MPSL, a parallel SL approach for computational efficient fine-tuning of multimodal transformers in a distributed manner, while eliminating label sharing, client synchronization, and per-client sub-model management. MPSL employs lightweight client-side tokenizers and a unified modality-agnostic encoder, allowing flexible adaptation to task-specific needs. Our evaluation across 7 multimodal datasets demonstrates that MPSL matches or outperforms Federated Learning, reduces client-side computations by 250x, and achieves superior scalability in communication cost with model growth. Through extensive analysis, we highlight task suitability, trade-offs, and scenarios where MPSL excels, inspiring further exploration.
- Abstract(参考訳): マルチモーダルトランスフォーマーは、画像、オーディオ、テキストなどの多様なデータタイプを統合し、音声-視覚的理解や画像-テキスト検索などのタスクを進行させる。
指定されたカット層でモデルを分割して計算集約的な操作をサーバにオフロードするSplit Learning (SL)は、マルチモーダルトランスフォーマーの分散トレーニングに有望なアプローチを提供する。
本稿では,マルチモーダル変圧器を分散的に微調整する並列SL手法MPSLを提案する。
MPSLは軽量なクライアント側トークンライザと統一されたモダリティ非依存エンコーダを採用しており、タスク固有のニーズへの柔軟な適応を可能にしている。
7つのマルチモーダルデータセットで評価した結果,MPSLがフェデレートラーニングに適合あるいは優れ,クライアント側での計算を250倍削減し,モデルの成長に伴う通信コストの優れたスケーラビリティを実現することがわかった。
広範囲な分析を通じて、MPSLが優れているようなタスク適合性、トレードオフ、シナリオを強調し、さらなる探索を促します。
関連論文リスト
- Adaptive Prototype Knowledge Transfer for Federated Learning with Mixed Modalities and Heterogeneous Tasks [12.67996108615162]
本稿では,適応型プロトタイプに基づく多モードフェデレート学習(AproMFL)フレームワークを提案する。
我々のAproMFLは、事前の公開データセットなしで適応的に構築されたプロトタイプを通じて知識を伝達する。
サーバはクライアントのプロトタイプを統一されたマルチモーダルプロトタイプに変換し、それらを集約してグローバルプロトタイプを形成する。
論文 参考訳(メタデータ) (2025-02-06T07:28:05Z) - Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - MP-SL: Multihop Parallel Split Learning [2.7716102039510564]
Multihop Parallel SL (MP-SL) は、リソース制約されたデバイスの関与を促進するために設計された、モジュール式かつ機械学習・アズ・ア・サービス(ML)フレームワークである。
MP-SLはマルチホップParallel SLベースのトレーニングをサポートする。複数のパーツに分割し、パイプライン方式で複数の計算ノードを使用する。
論文 参考訳(メタデータ) (2024-01-31T22:09:40Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - PFSL: Personalized & Fair Split Learning with Data & Label Privacy for
thin clients [0.5144809478361603]
PFSLは分散分割学習の新しいフレームワークであり、多数のシンクライアントが並列にトランスファー学習を行う。
クライアントモデルのパーソナライズを行うための軽量なステップを実装し,それぞれのデータ分布に対して高いパフォーマンスを実現する。
我々の精度は現在のアルゴリズムSLをはるかに上回り、いくつかの実生活ベンチマークにおける集中学習に非常に近い。
論文 参考訳(メタデータ) (2023-03-19T10:38:29Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。