論文の概要: DND: Boosting Large Language Models with Dynamic Nested Depth
- arxiv url: http://arxiv.org/abs/2510.11001v1
- Date: Mon, 13 Oct 2025 04:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.200175
- Title: DND: Boosting Large Language Models with Dynamic Nested Depth
- Title(参考訳): DND:動的ネスト深さで大規模言語モデルを強化する
- Authors: Tieyuan Chen, Xiaodong Chen, Haoxing Chen, Zhenzhong Lan, Weiyao Lin, Jianguo Li,
- Abstract要約: 市販LCMの性能を向上させる新しい手法であるDynamic Nested Depth(DND)を紹介する。
DNDはルーターでより重要なトークンを特定し、追加の処理のためにそれらを返送する。
様々なベンチマークにおいて、このアプローチは密度の高いQwen3-1.7Bを1.88%、MoE Qwen3-30B-A3Bを0.87%向上させる。
- 参考スコア(独自算出の注目度): 45.76934615780697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Dynamic Nested Depth (DND), a novel method that improves performance for off-the-shelf LLMs by selecting critical tokens to reprocess in a nested depth manner. Specifically, at the end of the given transformer layer, DND identifies more critical tokens with a router and feeds them back for an extra round of processing, effectively ``reviewing" difficult tokens while avoiding redundant computation for easier ones. The dynamic selection mechanism is tailored for precise control via two novel strategies: a router controlling loss to enhance token selection distinguishability, and a threshold control scheme to ensure selection stability. We demonstrate the effectiveness of DND by directly integrating it into pre-trained dense and MoE models during a post-training phase. On diverse benchmarks, this approach boosts the performances of the dense Qwen3-1.7B by 1.88% and the MoE Qwen3-30B-A3B by 0.87%, all with a minimal parameter and computing increase.
- Abstract(参考訳): そこで,本研究では,既設LLMの性能を向上させる新しい手法であるDynamic Nested Depth(DND)を紹介した。
具体的には、与えられたトランス層の最後に、DNDはルータでより重要なトークンを特定し、それらを余分な処理のために送り返します。
動的選択機構は、トークン選択の識別性を高めるルータ制御損失と、選択安定性を確保するしきい値制御スキームの2つの新しい戦略により、正確な制御のために調整される。
本研究では,DNDを事前学習した高密度モデルとMoEモデルに直接統合することにより,DNDの有効性を実証する。
様々なベンチマークにおいて、このアプローチは密度の高いQwen3-1.7Bを1.88%、MoE Qwen3-30B-A3Bを0.87%向上させ、いずれも最小パラメータと計算量の増加をもたらす。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Leveraging Stochastic Depth Training for Adaptive Inference [1.996143466020199]
本稿では,ゼロオーバーヘッド,単一モデル,時間予測可能な推論を用いた適応推論の簡易かつ効果的な代替手法を提案する。
従来のResNetと比較して、精度0.71%の低下で最大2倍の効率向上を実現した。
論文 参考訳(メタデータ) (2025-05-23T08:36:56Z) - KNN-SSD: Enabling Dynamic Self-Speculative Decoding via Nearest Neighbor Layer Set Optimization [20.230236656479207]
投機的復号化(SD)は、大規模言語モデル(LLM)の推論を加速するために広く使われているパラダイムとして登場した。
KNN-SSDは、K-Nearest Neighbor(KNN)探索を利用して、異なるスキップ層と様々なドメイン入力をマッチングするアルゴリズムである。
論文 参考訳(メタデータ) (2025-05-22T03:04:47Z) - Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - DDPG-Driven Deep-Unfolding with Adaptive Depth for Channel Estimation
with Sparse Bayesian Learning [23.158142411929322]
まず,異なる入力に対して適応的な深さを持つDDPG(Deep Deterministic Policy gradient)駆動のディープアンフォールディングの枠組みを開発する。
具体的には,大規模マルチインプットマルチアウトプットシステムにおけるチャネル推定問題に対処するために,このフレームワークを用いる。
論文 参考訳(メタデータ) (2022-01-20T22:35:42Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。