論文の概要: Informed Routing in LLMs: Smarter Token-Level Computation for Faster Inference
- arxiv url: http://arxiv.org/abs/2510.13831v1
- Date: Fri, 10 Oct 2025 09:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.456779
- Title: Informed Routing in LLMs: Smarter Token-Level Computation for Faster Inference
- Title(参考訳): LLMにおけるインフォームドルーティング:高速推論のためのよりスマートなトークンレベル計算
- Authors: Chao Han, Yijuan Liang, Zihao Xuan, Daokuan Wu, Wei Zhang, Xiaoyu Shen,
- Abstract要約: 本稿では,これらの問題に積極的に対処する新しいパラダイムであるインフォメーションルーティングを紹介する。
我々は、ルーティング決定を行う前に、ユニットの出力を推定する小さな予測モジュールである軽量特徴予測器(LFF)を提案する。
言語モデリングと推論タスクの両方の実験は、情報ルーティングが最先端の効率と性能のトレードオフを達成することを示す。
- 参考スコア(独自算出の注目度): 7.690958366125321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of large language models (LLMs) in real-world applications is increasingly limited by their high inference cost. While recent advances in dynamic token-level computation allocation attempt to improve efficiency by selectively activating model components per token, existing methods rely on greedy routing--a myopic execute-or-skip mechanism that often leads to irreversible information loss and suboptimal token selection. This paper introduces informed routing, a new paradigm that proactively addresses these issues. The key insight is to assess not only a token's immediate importance but also its recoverability, i.e., how well its transformation can be approximated. To this end, we propose the Lightweight Feature Forecaster (LFF), a small predictive module that estimates a unit's output before routing decisions are made. This enables a flexible execute-or-approximate policy that preserves model fidelity while drastically reducing computation. Extensive experiments on both language modeling and reasoning tasks show that informed routing achieves state-of-the-art efficiency-performance trade-offs across multiple sparsity levels. Notably, even without final LoRA fine-tuning, our method matches or surpasses strong baselines that require full fine-tuning, all while reducing training time by over 50%. The code is available at: https://github.com/EIT-NLP/informed-routing
- Abstract(参考訳): 大規模言語モデル(LLM)の実際のアプリケーションへの展開は、高い推論コストによってますます制限されている。
トークン単位のモデルコンポーネントを選択的に活性化することで効率を向上しようとする動的トークンレベルの計算割当の最近の進歩に対して、既存の手法は、しばしば不可逆的な情報損失や準最適トークン選択につながる、真面目なルーティング--ミオピック実行またはスキップ機構に依存している。
本稿では,これらの問題に積極的に対処する新しいパラダイムであるインフォメーションルーティングを紹介する。
鍵となる洞察はトークンの即時的な重要性だけでなく、その回復可能性、すなわちその変換がどの程度うまく近似できるかを評価することである。
この目的のために、ルーティング決定を行う前にユニットの出力を推定する小さな予測モジュールである軽量特徴予測器(LFF)を提案する。
これにより、フレキシブルな実行ポリシーや近似ポリシーが実現され、モデルの忠実さを保ちながら、計算を大幅に削減できる。
言語モデリングと推論タスクの広範な実験は、情報ルーティングが複数の疎性レベルにわたる最先端の効率-パフォーマンストレードオフを達成することを示している。
特に、最終LoRA微調整がなくても、トレーニング時間を50%以上削減しつつ、完全な微調整を必要とする強力なベースラインにマッチしたり、超えたりします。
コードは、https://github.com/EIT-NLP/informed-routing.comで入手できる。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
PARは自己教師付き学習方式により、パフォーマンスと効率のバランスが優れている。特に、PARは高い柔軟性を持ち、様々なアクセラレーションシナリオに対処する複数のプルーニングバージョンを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。