Fugu-MT 論文翻訳(概要): Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models

論文の概要: Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models

arxiv url: http://arxiv.org/abs/2412.06458v1
Date: Mon, 09 Dec 2024 13:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.352547
Title: Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models
Title（参考訳）: Pruning All-Rounder:大規模視覚言語モデルにおける推論効率の再考と改善
Authors: Wei Suo, Ji Ma, Mengyang Sun, Lin Yuanbo Wu, Peng Wang, Yanning Zhang,
Abstract要約: 我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。自己教師付き学習方式により,提案手法は性能と効率のバランスが良好である。特にPARは柔軟であり,複数のプルーニングバージョンを提供し,様々なプルーニングシナリオに対処する。
参考スコア（独自算出の注目度）: 42.124670377223175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although Large Vision-Language Models (LVLMs) have achieved impressive results, their high computational cost poses a significant barrier to wider application. To enhance inference efficiency, most existing approaches depend on parameter-dependent or token-dependent strategies to reduce computational demands. However, these methods typically require complex training processes and struggle to consistently select the most relevant tokens. In this paper, we systematically analyze the above challenges and provide a series of valuable insights for inference acceleration. Based on these findings, we propose a novel framework, the Pruning All-Rounder (PAR). Different from previous works, PAR develops a meta-router to adaptively organize pruning flows across both tokens and layers. With a self-supervised learning manner, our method achieves a superior balance between performance and efficiency. Notably, PAR is highly flexible, offering multiple pruning versions to address a range of pruning scenarios. The code for this work will be made publicly available.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は目覚ましい結果を得たが、その高い計算コストは幅広いアプリケーションにとって大きな障壁となる。推論効率を高めるために、既存のアプローチのほとんどは、計算要求を減らすためにパラメータ依存またはトークン依存の戦略に依存している。しかし、これらの手法は一般的に複雑なトレーニングプロセスを必要とし、最も関係のあるトークンを一貫して選ぶのに苦労する。本稿では、上記の課題を体系的に分析し、推論加速のための貴重な洞察を提供する。これらの知見に基づき,新たなフレームワークであるPruning All-Rounder(PAR)を提案する。 PARは従来の作業と異なり、トークンとレイヤの両方にわたるプルーニングフローを適応的に整理するメタルータを開発した。自己教師付き学習方式により,本手法は性能と効率のバランスが良くなる。特にPARは非常に柔軟で、様々なプルーニングシナリオに対応する複数のプルーニングバージョンを提供する。この作業のコードは公開されます。

関連論文リスト

Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳（メタデータ） (2025-02-11T02:31:11Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文参考訳（メタデータ） (2024-11-30T18:54:32Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文参考訳（メタデータ） (2024-07-06T09:04:27Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for Large Language Models [1.5807079236265718]
KENはカーネル密度推定(KDE)に基づく単純で普遍的で非構造化プルーニングアルゴリズムである Kenは、最適化されたトランスフォーマーを構築することを目的としており、最も重要なパラメータを選択的に保存し、他のパラメータをトレーニング前の状態に復元する。 Kenは、元の未実行バージョンと同等かそれ以上のパフォーマンスを達成し、パラメータの最小25%の削減を実現している。
論文参考訳（メタデータ） (2024-02-05T16:11:43Z)
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-18T16:21:40Z)
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文参考訳（メタデータ） (2023-05-25T07:39:41Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。