論文の概要: Efficient Multi-modal Long Context Learning for Training-free Adaptation
- arxiv url: http://arxiv.org/abs/2505.19812v1
- Date: Mon, 26 May 2025 10:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.366656
- Title: Efficient Multi-modal Long Context Learning for Training-free Adaptation
- Title(参考訳): 学習自由適応のためのマルチモーダル長期学習
- Authors: Zehong Ma, Shiliang Zhang, Longhui Wei, Qi Tian,
- Abstract要約: 本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
- 参考スコア(独自算出の注目度): 96.21248144937627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional approaches to adapting multi-modal large language models (MLLMs) to new tasks have relied heavily on fine-tuning. This paper introduces Efficient Multi-Modal Long Context Learning (EMLoC), a novel training-free alternative that embeds demonstration examples directly into the model input. EMLoC offers a more efficient, flexible, and scalable solution for task adaptation. Because extremely lengthy inputs introduce prohibitive computational and memory overhead, EMLoC contributes a chunk-wise compression mechanism combined with layer-wise adaptive pruning. It condenses long-context multimodal inputs into compact, task-specific memory representations. By adaptively pruning tokens at each layer under a Jensen-Shannon divergence constraint, our method achieves a dramatic reduction in inference complexity without sacrificing performance. This approach is the first to seamlessly integrate compression and pruning techniques for multi-modal long-context learning, offering a scalable and efficient solution for real-world applications. Extensive experiments on diverse vision-language benchmarks demonstrate that EMLoC achieves performance on par with or superior to naive long-context approaches. Our results highlight the potential of EMLoC as a groundbreaking framework for efficient and flexible adaptation of multi-modal models in resource-constrained environments. Codes are publicly available at https://github.com/Zehong-Ma/EMLoC.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)を新しいタスクに適用する従来のアプローチは、微調整に大きく依存している。
本稿では,モデル入力に直接実演例を組み込む新しい学習自由代替手段であるEMLoCについて紹介する。
EMLoCはタスク適応のためのより効率的で柔軟でスケーラブルなソリューションを提供する。
非常に長い入力では計算とメモリのオーバーヘッドが禁じられているため、EMLoCはチャンクワイド圧縮機構と層ワイド適応プルーニングを組み合わせている。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
本稿では,Jensen-Shannon分散制約の下で各層にトークンを適応的にプルーニングすることにより,性能を犠牲にすることなく,推論複雑性の劇的な低減を実現する。
このアプローチは、マルチモーダルな長期学習のための圧縮とプルーニング技術をシームレスに統合する最初の方法であり、現実世界のアプリケーションにスケーラブルで効率的なソリューションを提供する。
多様な視覚言語ベンチマークに関する大規模な実験により、EMLoCは、単純な長文のアプローチと同等以上のパフォーマンスを達成している。
本研究は,資源制約環境におけるマルチモーダルモデルの効率的かつ柔軟な適応のための基盤となるEMLoCの可能性を明らかにするものである。
コードはhttps://github.com/Zehong-Ma/EMLoC.comで公開されている。
関連論文リスト
- Robust Multimodal Learning via Cross-Modal Proxy Tokens [11.704477276235847]
マルチモーダルモデルは、推論中に1つ以上のモダリティが欠落している場合、大きなパフォーマンス低下を経験することが多い。
我々は,すべてのモダリティが利用可能である場合に高い性能を維持しつつ,モダリティの欠如に対するロバスト性を高める,シンプルで効果的なアプローチを提案する。
本手法では, 利用可能なモダリティのトークンのみにのみ参加することで, 欠落したモダリティのクラストークンを近似するクロスモーダルプロキシトークン(CMPT)を導入する。
論文 参考訳(メタデータ) (2025-01-29T18:15:49Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - MultiWay-Adapater: Adapting large-scale multi-modal models for scalable
image-text retrieval [4.4173427917548524]
MultiWay-Adapter(MWA)は「アライメント・エンハンサー」を特徴とする新しいフレームワークである
このエンハンサーはモーダル間アライメントを深くし、最小のチューニング作業で高い転送性を実現する。
実験によると、従来の効率的なチューニングアプローチとは異なり、MWAはモデルの有効性を維持し、トレーニング時間を最大57%削減している。
論文 参考訳(メタデータ) (2023-09-04T10:48:29Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。