論文の概要: GenieBlue: Integrating both Linguistic and Multimodal Capabilities for Large Language Models on Mobile Devices
- arxiv url: http://arxiv.org/abs/2503.06019v1
- Date: Sat, 08 Mar 2025 02:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:19.508652
- Title: GenieBlue: Integrating both Linguistic and Multimodal Capabilities for Large Language Models on Mobile Devices
- Title(参考訳): GenieBlue: モバイルデバイス上での大規模言語モデルのための言語機能とマルチモーダル機能の統合
- Authors: Xudong Lu, Yinghao Chen, Renshou Wu, Haohao Gao, Xi Chen, Xue Yang, Xiangyu Zhao, Aojun Zhou, Fangyuan Li, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li,
- Abstract要約: 我々は,モバイルデバイスの言語機能とマルチモーダル機能を統合した効率的なMLLM構造設計であるGenieBlueを提案する。
特定のトランスフォーマーブロックを複製して、完全な微調整を行い、軽量なLoRAモジュールを統合することで、マルチモーダル機能を取得する。
スマートフォンのNPU上にデプロイされたGenieBlueは、モバイルデバイス上のアプリケーションの効率性と実用性を実証する。
- 参考スコア(独自算出の注目度): 46.15092311190904
- License:
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have enabled their deployment on mobile devices. However, challenges persist in maintaining strong language capabilities and ensuring hardware compatibility, both of which are crucial for user experience and practical deployment efficiency. In our deployment process, we observe that existing MLLMs often face performance degradation on pure language tasks, and the current NPU platforms on smartphones do not support the MoE architecture, which is commonly used to preserve pure language capabilities during multimodal training. To address these issues, we systematically analyze methods to maintain pure language capabilities during the training of MLLMs, focusing on both training data and model architecture aspects. Based on these analyses, we propose GenieBlue, an efficient MLLM structural design that integrates both linguistic and multimodal capabilities for LLMs on mobile devices. GenieBlue freezes the original LLM parameters during MLLM training to maintain pure language capabilities. It acquires multimodal capabilities by duplicating specific transformer blocks for full fine-tuning and integrating lightweight LoRA modules. This approach preserves language capabilities while achieving comparable multimodal performance through extensive training. Deployed on smartphone NPUs, GenieBlue demonstrates efficiency and practicality for applications on mobile devices.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩により、モバイルデバイスへの展開が可能になった。
しかしながら、強力な言語機能を維持し、ハードウェア互換性を確保することが課題であり、どちらもユーザエクスペリエンスと実践的なデプロイメント効率に不可欠である。
デプロイプロセスでは,既存のMLLMは純粋言語タスクのパフォーマンス劣化に直面することが多く,スマートフォン上の現在のNPUプラットフォームでは,マルチモーダルトレーニングにおいて純粋言語機能を維持するために一般的に使用されるMoEアーキテクチャをサポートしていない。
これらの課題に対処するために、MLLMのトレーニング中に純粋言語機能を維持するための手法を体系的に分析し、トレーニングデータとモデルアーキテクチャの両方に焦点をあてる。
これらの分析に基づいて,モバイル端末上でのMLLMの言語機能とマルチモーダル機能を統合した効率的なMLLM構造設計であるGenieBlueを提案する。
GenieBlueはMLLMトレーニング中にオリジナルのLLMパラメータを凍結して、純粋な言語機能を維持する。
特定のトランスフォーマーブロックを複製して、完全な微調整を行い、軽量なLoRAモジュールを統合することで、マルチモーダル機能を取得する。
このアプローチは、広範なトレーニングを通じて、同等のマルチモーダルパフォーマンスを達成しながら、言語能力を保ちます。
スマートフォンのNPU上にデプロイされたGenieBlueは、モバイルデバイス上のアプリケーションの効率性と実用性を実証する。
関連論文リスト
- Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - Improving Multimodal Large Language Models Using Continual Learning [16.28968930137886]
生成型大規模言語モデル(LLM)は、事前学習された視覚モデルを元のLLMに統合することにより、さらに拡張できる印象的な能力を示す。
本研究では,この問題をLLaVA MLLMを用いて検討し,統合を継続学習問題として扱う。
言語能力の損失を最小限に抑えながら視覚的理解を高める手法を,5つの連続学習手法を用いて検討した。
論文 参考訳(メタデータ) (2024-10-25T18:50:40Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。