Fugu-MT 論文翻訳(概要): Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration

論文の概要: Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration

arxiv url: http://arxiv.org/abs/2406.01601v2
Date: Sat, 17 Aug 2024 15:07:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 02:38:38.170492
Title: Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration
Title（参考訳）: クラウドデバイス協調によるバックプロパゲーションフリーマルチモーダルオンデバイスモデル適応
Authors: Wei Ji, Li Li, Zheqi Lv, Wenqiao Zhang, Mengze Li, Zhen Wan, Wenqiang Lei, Roger Zimmermann,
Abstract要約: ユニバーサルオンデバイスマルチモーダルモデル適応フレームワークを提案する。このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。私たちの貢献は、オンデバイスマルチモーダルモデル適応(DMMA)の先駆的なソリューションである。
参考スコア（独自算出の注目度）: 37.456185990843515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In our increasingly interconnected world, where intelligent devices continually amass copious personalized multi-modal data, a pressing need arises to deliver high-quality, personalized device-aware services. However, this endeavor presents a multifaceted challenge to prevailing artificial intelligence (AI) systems primarily rooted in the cloud. As these systems grapple with shifting data distributions between the cloud and devices, the traditional approach of fine-tuning-based adaptation (FTA) exists the following issues: the costly and time-consuming data annotation required by FTA and the looming risk of model overfitting. To surmount these challenges, we introduce a Universal On-Device Multi-modal Model Adaptation Framework, revolutionizing on-device model adaptation by striking a balance between efficiency and effectiveness. The framework features the Fast Domain Adaptor (FDA) hosted in the cloud, providing tailored parameters for the Lightweight Multi-modal Model on devices. To enhance adaptability across multi-modal tasks, the AnchorFrame Distribution Reasoner (ADR) minimizes communication costs. Our contributions, encapsulated in the Cloud-Device Collaboration Multi-modal Parameter Generation (CDC-MMPG) framework, represent a pioneering solution for on-Device Multi-modal Model Adaptation (DMMA). Extensive experiments validate the efficiency and effectiveness of our method, particularly in video question answering and retrieval tasks, driving forward the integration of intelligent devices into our daily lives.
Abstract（参考訳）: インテリジェントなデバイスが継続的に、パーソナライズされたパーソナライズされたマルチモーダルデータを蓄積している、ますます相互接続する世界では、高品質でパーソナライズされたデバイス対応サービスを提供するためのプレッシャーが生まれます。しかし、この取り組みは、主にクラウドに根ざした人工知能(AI)システムに、多面的な挑戦をもたらす。これらのシステムは、クラウドとデバイス間のデータ分散のシフトに対応しているため、ファインチューニングベースの適応(FTA)の従来のアプローチには、FTAが要求するコストと時間を要するデータアノテーションと、モデルオーバーフィッティングの略奪的なリスクがある。これらの課題を克服するため、我々はUniversal On-Device Multi-modal Model Adaptation Frameworkを導入する。このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。マルチモーダルタスク間の適応性を高めるため、ADR(AnchorFrame Distribution Reasoner)は通信コストを最小化する。クラウド・デバイス・コラボレーション・マルチモーダルパラメータ生成(CDC-MMPG)フレームワークにカプセル化されている当社のコントリビューションは、オン・デバイス・マルチモーダル・モデル適応(DMMA)の先駆的なソリューションである。特にビデオ質問応答と検索タスクにおいて,我々の日常生活におけるインテリジェントデバイスの統合を推進し,本手法の有効性と有効性を検証する。

関連論文リスト

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文参考訳（メタデータ） (2025-09-03T17:29:50Z)
Cloud-Device Collaborative Agents for Sequential Recommendation [36.05863003744828]
大規模言語モデル(LLM)は、強力な意味理解と柔軟な推論機能を備えたエージェントベースのレコメンデーションシステムを実現している。 LLMは強力なパーソナライズを提供するが、プライバシの懸念やリアルタイム信号へのアクセス制限、スケーラビリティのボトルネックに悩まされることが多い。本稿では,2つのエージェントを駆使したシーケンシャルレコメンデーションのための新しいクラウド・デバイス協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-01T15:28:11Z)
Multi-Modal Multi-Task (M3T) Federated Foundation Models for Embodied AI: Potentials and Challenges for Edge Integration [16.914582808898505]
具体的AIのためのフェデレーションファンデーションモデル(FFM)を紹介する。統合されたフレームワークの下で、具体化されたAIエコシステムにおけるFFMの重要なデプロイメント次元を収集します。具体的な課題を特定し、実行可能な研究の方向性を想定する。
論文参考訳（メタデータ） (2025-05-16T12:49:36Z)
MultiTASC++: A Continuously Adaptive Scheduler for Edge-Based Multi-Device Cascade Inference [4.556037016746581]
分散推論のための連続適応型マルチテナンシ対応スケジューラであるMultiTASC++を紹介する。我々は、スケジューラが目標満足度を継続的に維持する上で有効であり、最大100台のデバイスで、さまざまなデバイス層とワークロードで最高の可用性を提供していることを実証する。
論文参考訳（メタデータ） (2024-12-05T13:19:34Z)
X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing [14.549639729808717]
現在の人間の感覚は主にカメラとLiDARに依存しており、それぞれに独自の強度と限界がある。既存のマルチモーダル・フュージョン・ソリューションは、一般に固定されたモダリティの組み合わせのために設計されている。この問題に対処するために、すべてのモダリティ(X-Fi)に対するモダリティ不変基盤モデルを提案する。
論文参考訳（メタデータ） (2024-10-14T05:23:12Z)
Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
OnDev-LCT: On-Device Lightweight Convolutional Transformers towards federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文参考訳（メタデータ） (2024-01-22T02:17:36Z)
Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2023-12-26T18:46:14Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
AQUILA: Communication Efficient Federated Learning with Adaptive Quantization in Device Selection Strategy [27.443439653087662]
本稿では,これらの問題に対処するために考案された新しい適応型フレームワークであるAQUILA(Adaptive Quantization in Device selection Strategy)を紹介する。 AQUILAは、デバイス更新の品質と有用性を優先する高度なデバイス選択方法を統合する。実験の結果,AQUILAは既存の手法に比べて通信コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (2023-08-01T03:41:47Z)
DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文参考訳（メタデータ） (2022-09-12T13:26:26Z)
On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文参考訳（メタデータ） (2021-10-08T13:28:28Z)
SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。 S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。 SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文参考訳（メタデータ） (2021-09-08T22:06:16Z)
Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文参考訳（メタデータ） (2021-04-14T05:06:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。