論文の概要: Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration
- arxiv url: http://arxiv.org/abs/2406.01601v3
- Date: Mon, 18 Nov 2024 23:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:15.655118
- Title: Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration
- Title(参考訳): クラウドデバイス協調によるバックプロパゲーションフリーマルチモーダルオンデバイスモデル適応
- Authors: Wei Ji, Li Li, Zheqi Lv, Wenqiao Zhang, Mengze Li, Zhen Wan, Wenqiang Lei, Roger Zimmermann,
- Abstract要約: ユニバーサルオンデバイスマルチモーダルモデル適応フレームワークを提案する。
このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。
私たちの貢献は、オンデバイスマルチモーダルモデル適応(DMMA)の先駆的なソリューションである。
- 参考スコア(独自算出の注目度): 37.456185990843515
- License:
- Abstract: In our increasingly interconnected world, where intelligent devices continually amass copious personalized multi-modal data, a pressing need arises to deliver high-quality, personalized device-aware services. However, this endeavor presents a multifaceted challenge to prevailing artificial intelligence (AI) systems primarily rooted in the cloud. As these systems grapple with shifting data distributions between the cloud and devices, the traditional approach of fine-tuning-based adaptation (FTA) exists the following issues: the costly and time-consuming data annotation required by FTA and the looming risk of model overfitting. To surmount these challenges, we introduce a Universal On-Device Multi-modal Model Adaptation Framework, revolutionizing on-device model adaptation by striking a balance between efficiency and effectiveness. The framework features the Fast Domain Adaptor (FDA) hosted in the cloud, providing tailored parameters for the Lightweight Multi-modal Model on devices. To enhance adaptability across multi-modal tasks, the AnchorFrame Distribution Reasoner (ADR) minimizes communication costs. Our contributions, encapsulated in the Cloud-Device Collaboration Multi-modal Parameter Generation (CDC-MMPG) framework, represent a pioneering solution for on-Device Multi-modal Model Adaptation (DMMA). Extensive experiments validate the efficiency and effectiveness of our method, particularly in video question answering and retrieval tasks, driving forward the integration of intelligent devices into our daily lives.
- Abstract(参考訳): インテリジェントなデバイスが継続的に、パーソナライズされたパーソナライズされたマルチモーダルデータを蓄積している、ますます相互接続する世界では、高品質でパーソナライズされたデバイス対応サービスを提供するためのプレッシャーが生まれます。
しかし、この取り組みは、主にクラウドに根ざした人工知能(AI)システムに、多面的な挑戦をもたらす。
これらのシステムは、クラウドとデバイス間のデータ分散のシフトに対応しているため、ファインチューニングベースの適応(FTA)の従来のアプローチには、FTAが要求するコストと時間を要するデータアノテーションと、モデルオーバーフィッティングの略奪的なリスクがある。
これらの課題を克服するため、我々はUniversal On-Device Multi-modal Model Adaptation Frameworkを導入する。
このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。
マルチモーダルタスク間の適応性を高めるため、ADR(AnchorFrame Distribution Reasoner)は通信コストを最小化する。
クラウド・デバイス・コラボレーション・マルチモーダルパラメータ生成(CDC-MMPG)フレームワークにカプセル化されている当社のコントリビューションは、オン・デバイス・マルチモーダル・モデル適応(DMMA)の先駆的なソリューションである。
特にビデオ質問応答と検索タスクにおいて,我々の日常生活におけるインテリジェントデバイスの統合を推進し,本手法の有効性と有効性を検証する。
関連論文リスト
- X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing [14.549639729808717]
現在の人間の感覚は主にカメラとLiDARに依存しており、それぞれに独自の強度と限界がある。
既存のマルチモーダル・フュージョン・ソリューションは、一般に固定されたモダリティの組み合わせのために設計されている。
この問題に対処するために、すべてのモダリティ(X-Fi)に対するモダリティ不変基盤モデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T05:23:12Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - AQUILA: Communication Efficient Federated Learning with Adaptive
Quantization in Device Selection Strategy [27.443439653087662]
本稿では,これらの問題に対処するために考案された新しい適応型フレームワークであるAQUILA(Adaptive Quantization in Device selection Strategy)を紹介する。
AQUILAは、デバイス更新の品質と有用性を優先する高度なデバイス選択方法を統合する。
実験の結果,AQUILAは既存の手法に比べて通信コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-08-01T03:41:47Z) - On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文 参考訳(メタデータ) (2021-10-08T13:28:28Z) - SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge
Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。
S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。
SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文 参考訳(メタデータ) (2021-09-08T22:06:16Z) - Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。
数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文 参考訳(メタデータ) (2021-04-14T05:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。