論文の概要: DART-ing Through the Drift: Dynamic Tracing of Knowledge Neurons for Adaptive Inference-Time Pruning
- arxiv url: http://arxiv.org/abs/2601.22632v1
- Date: Fri, 30 Jan 2026 06:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.278784
- Title: DART-ing Through the Drift: Dynamic Tracing of Knowledge Neurons for Adaptive Inference-Time Pruning
- Title(参考訳): DART-ing through the Drift: Dynamic Tracing of Knowledge Neurons for Adaptive Inference-Time Pruning
- Authors: Abhishek Tyagi, Yunuo Cen, Shrey Dhorajiya, Bharadwaj Veeravalli, Xuanyao Fong,
- Abstract要約: DARTは、オンザフライでコンテキストベースプルーニングを行う軽量なトレーニングフリー手法である。
DARTは分布の変化を監視し、文脈変化を推測し、ニューロンレベルのマスクを動的に更新し、正常なパラメータを保持する。
LLAMA-3.1-8Bでは、70%のFFN間隔で14.5%の精度向上を実現し、3倍のROUGE-Lスコアが得られる。
- 参考スコア(独自算出の注目度): 6.3691159627915015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit substantial parameter redundancy, particularly in Feed-Forward Networks (FFNs). Existing pruning methods suffer from two primary limitations. First, reliance on dataset-specific calibration introduces significant data dependency and computational overhead. Second, being predominantly static, they fail to account for the evolving subset of knowledge neurons in LLMs during autoregressive generation as the context evolves. To address this, we introduce DART, i.e., Dynamic Attention-Guided Runtime Tracing), a lightweight, training-free method that performs on-the-fly context-based pruning. DART monitors shifts in attention score distributions to infer context changes, dynamically updating neuron-level masks to retain salient parameters. Across ten benchmarks, DART outperforms prior dynamic baseline, achieving accuracy gains of up to 14.5% on LLAMA-3.1-8B at 70% FFN sparsity. Furthermore, DART achieves up to 3x better ROUGE-L scores with respect to static-masked pruning on summarization tasks, with its performance comparable to the original dense models. We conclusively demonstrate that the proposed framework effectively adapts to diverse semantic contexts, preserves model capabilities across both general and domain-specific tasks while running at less than 10MBs of memory for LLAMA-3.1-8B(16GBs) with 0.1% FLOPs overhead. The code is available at https://github.com/seeder-research/DART.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にFeed-Forward Networks(FFN)において、かなりのパラメータ冗長性を示す。
既存のプルーニング法には2つの主要な制限がある。
まず、データセット固有のキャリブレーションに依存すると、大きなデータ依存と計算オーバーヘッドが発生する。
第2に、主に静的であるため、文脈が進化するにつれて自己回帰生成中にLLM内の知識ニューロンの進化するサブセットを考慮できない。
この問題を解決するために、DART(Dynamic Attention-Guided Runtime Tracing)を紹介します。
DARTは注意点分布の変化を監視し、文脈変化を推測し、ニューロンレベルのマスクを動的に更新し、正常なパラメータを保持する。
10のベンチマークで、DARTは以前のダイナミックベースラインよりも優れており、LLAMA-3.1-8Bでは70%のFFN間隔で14.5%の精度向上を達成した。
さらに、DARTは、最大で3倍のROUGE-Lスコアを得ることができ、その性能は元の高密度モデルに匹敵する。
提案手法は,LLAMA-3.1-8B(16GBs) の10MB未満のメモリで動作し,0.1%のFLOPオーバヘッドで動作しながら,汎用タスクとドメイン固有タスクの両方にわたってモデル機能を保持する。
コードはhttps://github.com/seeder-research/DARTで公開されている。
関連論文リスト
- CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory [19.64051996386645]
CREAMは、メモリベースの連続検索のための自己教師型フレームワークである。
教師なしの環境では、目に見えないトピックと見えないトピックの両方に適応します。
2つのベンチマークデータセットの実験は、CREAMが優れた適応性と精度を示すことを示した。
論文 参考訳(メタデータ) (2026-01-06T04:47:49Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Foundation Models [45.12546316524245]
DARTは、完全に微分可能な動的領域適応型トケナイザである。
DARTは学習可能な領域スコアと量子ベースのパーティショニングを使用して、さまざまなサイズのコンテンツ認識パッチを生成する。
DART-Smallは、DiT-Base86の性能とほぼ2倍の推論速度で一致している。
論文 参考訳(メタデータ) (2025-06-12T06:25:37Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Dual-frame Fluid Motion Estimation with Test-time Optimization and Zero-divergence Loss [9.287932323337163]
3次元粒子追跡速度計(PTV)は乱流解析の鍵となる技術である。
深層学習に基づく手法は、2フレームの流体運動推定において顕著な精度を達成している。
我々は,完全に自己管理された新しい手法を導入し,完全に教師された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-15T18:00:00Z) - SD-Conv: Towards the Parameter-Efficiency of Dynamic Convolution [16.56592303409295]
動的畳み込みは、無視可能なFLOPの増加による効率の良いCNNの性能向上を実現する。
我々はこれら2つのパスを自然に統合する新しいフレームワーク textbfSparse Dynamic Convolution (textscSD-Conv) を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:03:54Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。