論文の概要: Sparse Brains are Also Adaptive Brains: Cognitive-Load-Aware Dynamic Activation for LLMs
- arxiv url: http://arxiv.org/abs/2502.19078v1
- Date: Wed, 26 Feb 2025 12:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:53.997648
- Title: Sparse Brains are Also Adaptive Brains: Cognitive-Load-Aware Dynamic Activation for LLMs
- Title(参考訳): スパース脳もまた適応的脳である:認知的Load-Aware Dynamic Activation for LLMs
- Authors: Yiheng Yang, Yujie Wang, Chi Ma, Lei Yu, Emmanuele Chersoni, Chu-Ren Huang,
- Abstract要約: CLADAは、統計的疎結合とセマンティック適応性を相乗化するフレームワークである。
textbf20%の平均スピードアップを2%の精度低下で達成し、Griffin(5%以上の劣化)とTT(無視可能なスピードアップ)を上回ります。
- 参考スコア(独自算出の注目度): 20.66821663739342
- License:
- Abstract: Dense large language models(LLMs) face critical efficiency bottlenecks as they rigidly activate all parameters regardless of input complexity. While existing sparsity methods(static pruning or dynamic activation) address this partially, they either lack adaptivity to contextual or model structural demands or incur prohibitive computational overhead. Inspired by human brain's dual-process mechanisms - predictive coding (N400) for backbone sparsity and structural reanalysis (P600) for complex context - we propose CLADA, a \textit{\textbf{C}ognitive-\textbf{L}oad-\textbf{A}ware \textbf{D}ynamic \textbf{A}ctivation} framework that synergizes statistical sparsity with semantic adaptability. Our key insight is that LLM activations exhibit two complementary patterns: 1) \textit{Global statistical sparsity} driven by sequence-level prefix information, and 2) \textit{Local semantic adaptability} modulated by cognitive load metrics(e.g., surprisal and entropy). CLADA employs a hierarchical thresholding strategy: a baseline from offline error-controlled optimization ensures 40\%+ sparsity, dynamically adjusted by real-time cognitive signals. Evaluations across six mainstream LLMs and nine benchmarks demonstrate that CLADA achieves \textbf{~20\% average speedup with <2\% accuracy drop}, outperforming Griffin (5\%+ degradation) and TT (negligible speedup). Crucially, we establish the first formal connection between neurolinguistic event-related potential (ERP) components and LLM efficiency mechanisms through multi-level regression analysis ($R^2=0.17$ for sparsity-adaptation synergy). Requiring no retraining or architectural changes, CLADA offers a deployable solution for resource-aware LLM inference while advancing biologically-inspired AI design. Our code is available at \href{https://github.com/Oldify/CLADA}{CLADA}.
- Abstract(参考訳): 重大言語モデル(LLM)は、入力複雑性に関係なく、厳格に全てのパラメータを活性化するので、重要な効率のボトルネックに直面します。
既存のスパーシティ法(静的プルーニング法や動的アクティベーション法)は部分的にこの問題に対処するが、文脈的あるいは構造的要求に対する適応性を欠いているか、禁じられた計算オーバーヘッドを発生させるかのいずれかである。
人間の脳の二重プロセス機構にインスパイアされた、複雑なコンテキストにおけるバックボーンの空間性と構造的再分析のための予測符号化(N400) - CLADA, a \textit{\textbf{C}ognitive-\textbf{L}oad-\textbf{A}ware \textbf{D}ynamic \textbf{A}ctivation} framework。
我々の重要な洞察は、LLMアクティベーションは2つの相補的なパターンを示すことである。
1) シーケンスレベルのプレフィックス情報によって駆動される「textit{Global statistics sparsity}」及び
2) 認知的負荷指標(例えば, 主観的, エントロピー)によって調節される。
オフラインエラー制御最適化のベースラインは、リアルタイム認知信号によって動的に調整された40\%以上の間隔を保証する。
6つの主要なLCMと9つのベンチマークで評価した結果、CLADAは<2\%の精度低下で \textbf{~20\%の平均スピードアップを達成し、Griffin(5\%以上の劣化)とTT(無視可能なスピードアップ)を上回った。
重要なことに、我々は多段階回帰分析(R^2=0.17$ for sparsity-adaptation synergy)を通して、神経言語学的事象関連電位(ERP)成分とLLM効率メカニズムとの間の最初の公式な接続を確立する。
再トレーニングやアーキテクチャの変更を必要としないCLADAは、生物学的にインスパイアされたAI設計を進めながら、リソースを意識したLLM推論のためのデプロイ可能なソリューションを提供する。
私たちのコードは \href{https://github.com/Oldify/CLADA}{CLADA} で利用可能です。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Learning Autonomous Code Integration for Math Language Models [30.057052324461534]
本稿では,メタ認知ツール利用決定と進化能力の間の自己強化サイクルを構築するために,構造化探索(E-step)と非政治最適化(M-step)を併用する新しいフレームワークを提案する。
当社の7Bモデルは、MATH500では11%、AIMEでは9.4%、o1のようなCoTでは9.4%改善しています。
論文 参考訳(メタデータ) (2025-02-02T06:32:23Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。