Fugu-MT 論文翻訳(概要): LatentLLM: Attention-Aware Joint Tensor Compression

論文の概要: LatentLLM: Attention-Aware Joint Tensor Compression

arxiv url: http://arxiv.org/abs/2505.18413v1
Date: Fri, 23 May 2025 22:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.404124
Title: LatentLLM: Attention-Aware Joint Tensor Compression
Title（参考訳）: LatentLLM: 注意認識型関節テンソル圧縮
Authors: Toshiaki Koike-Akino, Xiangyu Chen, Jing Liu, Ye Wang, Pu, Wang, Matthew Brand,
Abstract要約: 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 50.33925662486034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern foundation models such as large language models (LLMs) and large multi-modal models (LMMs) require a massive amount of computational and memory resources. We propose a new framework to convert such LLMs/LMMs into a reduced-dimension latent structure. Our method extends a local activation-aware tensor decomposition to a global attention-aware joint tensor de-composition. Our framework can significantly improve the model accuracy over the existing model compression methods when reducing the latent dimension to realize computationally/memory-efficient LLMs/LLMs. We show the benefit on several benchmark including multi-modal reasoning tasks.
Abstract（参考訳）: 大規模言語モデル (LLM) や大規模マルチモーダルモデル (LMM) のような現代の基礎モデルは、膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。本手法は, 局所的アクティベーション対応テンソル分解を大域的注目対応継手テンソル分解に拡張する。計算/メモリ効率のよいLLM/LLMを実現するために,既存のモデル圧縮手法よりもモデル精度を大幅に向上させることができる。マルチモーダル推論タスクを含むいくつかのベンチマークの利点を示す。

関連論文リスト

Reversing Large Language Models for Efficient Training and Fine-Tuning [24.232966507637673]
大きな言語モデル(LLM)は、高価で時間を要する訓練で知られている。対称およびシンプレクティック微分方程式に着想を得たLLMのメモリ効率・可逆的アーキテクチャを提案する。その結果、いくつかのデータセットとベンチマークで同等または改善されたパフォーマンスを示しました。
論文参考訳（メタデータ） (2025-11-27T19:32:15Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。モデルとシステムデザイン計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文参考訳（メタデータ） (2024-09-03T15:35:01Z)
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文参考訳（メタデータ） (2024-08-16T17:57:01Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文参考訳（メタデータ） (2024-07-17T08:21:06Z)
Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations [21.229296254354878]
本稿では,タスクに依存しない構造化プルーニング手法と,コンパクトなTransformerアーキテクチャ設計を提案する。提案手法はTransActと呼ばれ,MHA(Multi-head attention)およびMLP(Multi-layer perceptron)モジュール内の遷移活性化を低減する。その結果, 効率と性能の両面から, 高い圧縮率で提案手法の最適性を検証することができた。
論文参考訳（メタデータ） (2024-07-08T07:45:38Z)
Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。 LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文参考訳（メタデータ） (2024-06-16T09:51:55Z)
CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。 CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-21T01:00:17Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。