論文の概要: Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI
- arxiv url: http://arxiv.org/abs/2312.07886v1
- Date: Wed, 13 Dec 2023 04:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:31:53.404430
- Title: Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI
- Title(参考訳): モダリティプラグアンドプレイ:マルチモーダルLLMにおける弾力的モダリティ適応
- Authors: Kai Huang, Boyuan Yang and Wei Gao
- Abstract要約: LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
- 参考スコア(独自算出の注目度): 10.82017289243097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are capable of reasoning over diverse input data
modalities through pre-trained encoders. However, the growing diversity of
input data modalities prevents incorporating all modalities into LLMs,
especially when LLMs are deployed on resource-constrained edge devices for
embodied AI applications. Instead, a better option is to adaptively involve
only the useful modalities at runtime, depending on the current environmental
contexts and task requirements. For such modality adaptation, existing work
adopts fixed connections between encoders and the LLM's input layer, leading to
high training cost at runtime and ineffective cross-modal interaction. In this
paper, we address these limitations by presenting mPnP-LLM, a new technique
that allows fully elastic, automated and prompt runtime modality adaptation, by
connecting unimodal encoders to a flexible set of last LLM blocks and making
such latent connections fully trainable at runtime. Experiments over the
nuScenes-QA dataset show that mPnP-LLM can achieve up to 3.7x FLOPs reduction
and 30% GPU memory usage reduction, while retaining on-par accuracy with the
existing schemes. Under the same compute budget, mPnP-LLM improves the task
accuracy by up to 4% compared to the best existing scheme.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
しかし、入力データモダリティの多様性の増大は、特に具体化されたaiアプリケーションのためにリソースに制約されたエッジデバイスにllmがデプロイされた場合に、llmにすべてのモダリティを統合することを妨げる。
代わりに、現在の環境状況やタスク要求に応じて、実行時に有用なモダリティのみを適応的に巻き込む方がよい。
このようなモダリティ適応のために、既存の研究はエンコーダとLLMの入力層の間の固定接続を採用しており、実行時のトレーニングコストが高く、非効率な相互モーダル相互作用をもたらす。
本稿では,mPnP-LLM(mPnP-LLM)という,非モードエンコーダを最後のLCMブロックのフレキシブルなセットに接続し,その遅延接続を実行時に完全にトレーニング可能にする,完全に弾力的で自動化され,迅速な実行時モダリティ適応を可能にする新しい手法を提案する。
nuScenes-QAデータセット上での実験では、mPnP-LLMは既存のスキームと同等の精度を維持しながら、最大3.7倍のFLOPと30%のGPUメモリ使用率の削減を実現可能である。
同じ計算予算の下では、mPnP-LLMはタスクの精度を最高の既存のスキームに比べて最大4%改善する。
関連論文リスト
- MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - CREMA: Multimodal Compositional Video Reasoning via Efficient Modular
Adaptation and Fusion [65.3593129253195]
CREMAはビデオ推論に新しいモダリティを注入するための効率的なフレームワークである。
本稿では,ビデオ3D,ビデオオーディオ,ビデオ言語推論タスクについて検証する。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - FwdLLM: Efficient FedLLM using Forward Gradient [8.520892692833293]
FwdLLMはFedLLMの効率を高めるために設計された革新的なFLプロトコルである。
FwdLLMはバックプロパゲーション(BP)なしのトレーニング手法を採用しており、デバイスは摂動推論のみを実行する必要がある。
論文 参考訳(メタデータ) (2023-08-26T14:36:30Z) - Asynchronous Multi-Model Dynamic Federated Learning over Wireless
Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。
まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。
我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文 参考訳(メタデータ) (2023-05-22T21:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。