Fugu-MT 論文翻訳(概要): Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI

論文の概要: Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI

arxiv url: http://arxiv.org/abs/2312.07886v1
Date: Wed, 13 Dec 2023 04:08:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 16:31:53.404430
Title: Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI
Title（参考訳）: モダリティプラグアンドプレイ:マルチモーダルLLMにおける弾力的モダリティ適応
Authors: Kai Huang, Boyuan Yang and Wei Gao
Abstract要約: LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。 m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
参考スコア（独自算出の注目度）: 10.82017289243097
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) are capable of reasoning over diverse input data modalities through pre-trained encoders. However, the growing diversity of input data modalities prevents incorporating all modalities into LLMs, especially when LLMs are deployed on resource-constrained edge devices for embodied AI applications. Instead, a better option is to adaptively involve only the useful modalities at runtime, depending on the current environmental contexts and task requirements. For such modality adaptation, existing work adopts fixed connections between encoders and the LLM's input layer, leading to high training cost at runtime and ineffective cross-modal interaction. In this paper, we address these limitations by presenting mPnP-LLM, a new technique that allows fully elastic, automated and prompt runtime modality adaptation, by connecting unimodal encoders to a flexible set of last LLM blocks and making such latent connections fully trainable at runtime. Experiments over the nuScenes-QA dataset show that mPnP-LLM can achieve up to 3.7x FLOPs reduction and 30% GPU memory usage reduction, while retaining on-par accuracy with the existing schemes. Under the same compute budget, mPnP-LLM improves the task accuracy by up to 4% compared to the best existing scheme.
Abstract（参考訳）: 大規模言語モデル(LLM)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。しかし、入力データモダリティの多様性の増大は、特に具体化されたaiアプリケーションのためにリソースに制約されたエッジデバイスにllmがデプロイされた場合に、llmにすべてのモダリティを統合することを妨げる。代わりに、現在の環境状況やタスク要求に応じて、実行時に有用なモダリティのみを適応的に巻き込む方がよい。このようなモダリティ適応のために、既存の研究はエンコーダとLLMの入力層の間の固定接続を採用しており、実行時のトレーニングコストが高く、非効率な相互モーダル相互作用をもたらす。本稿では,mPnP-LLM(mPnP-LLM)という,非モードエンコーダを最後のLCMブロックのフレキシブルなセットに接続し,その遅延接続を実行時に完全にトレーニング可能にする,完全に弾力的で自動化され,迅速な実行時モダリティ適応を可能にする新しい手法を提案する。 nuScenes-QAデータセット上での実験では、mPnP-LLMは既存のスキームと同等の精度を維持しながら、最大3.7倍のFLOPと30%のGPUメモリ使用率の削減を実現可能である。同じ計算予算の下では、mPnP-LLMはタスクの精度を最高の既存のスキームに比べて最大4%改善する。

関連論文リスト

ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism [9.93378263858092]
マルチモーダル大言語モデル(MLLM)は、特徴抽出器とプロジェクションモジュールを組み込むことで、画像、ビデオ、オーディオを扱う。現在の密結合のサービスアーキテクチャは、混合要求タイプを区別するのに苦労しています。資源の不均一性に弾力的に適応する新しいサービスパラダイムであるElastic Multimodal Parallelism (EMP)を提案する。
論文参考訳（メタデータ） (2025-07-14T08:53:48Z)
Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。モデル入力に直接デモ例を埋め込む。長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文参考訳（メタデータ） (2025-05-26T10:49:44Z)
Learning to Inference Adaptively for Multimodal Large Language Models [19.510735093226703]
AdaLLaVA(アダプティブ・推論・フレームワーク)を導入し,MLLM内での演算の再構成を学習する。質問応答、推論、幻覚を含むベンチマークで実験を行う。以上の結果から,AdaLLaVAは入力レイテンシの予算に効果的に準拠し,実行時の精度やレイテンシのトレードオフが変化することがわかった。
論文参考訳（メタデータ） (2025-03-13T21:39:38Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。 SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-09T14:15:30Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
ELMS: Elasticized Large Language Models On Mobile Devices [5.689405542579458]
デバイス上の大規模言語モデル(LLM)は、プライバシー問題に対処しながら、UI自動化などのアプリケーションを可能にする、モバイルAIに革命をもたらしている。 ELMSは、モデルとプロンプト次元の両方で弾力性を提供するように設計されたデバイス上でのLCMサービスである。トランスモデルに固有の置換整合性を利用して高品質で柔軟なサブモデルを作成するワンタイムリオーダーニューロニング技術。プロンプトを効率的に洗練し、モデルプロンプト間の弾性適応をコーディネートするデュアルヘッドコンパクト言語モデル。
論文参考訳（メタデータ） (2024-09-08T06:32:08Z)
MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文参考訳（メタデータ） (2024-08-07T02:28:37Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。