論文の概要: LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models
- arxiv url: http://arxiv.org/abs/2606.01838v1
- Date: Mon, 01 Jun 2026 07:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.578305
- Title: LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models
- Title(参考訳): LayerRoute: エージェント言語モデルのためのLoRAファインチューニングによる入出力適応層スキッピング
- Authors: Prateek Kumar Sikdar,
- Abstract要約: LayerRouteは、インプット毎にトランスフォーマーブロックを選択的にスキップする方法を学習する軽量アダプタである。
1)ストレートスルー推定器を介してハードバイナリゲートを出力する層間ルータと、(2)Q/K/V/Oアテンションプロジェクション上のLoRAアダプタ(ランク8,1.08Mパラメータ)である。
ゲート正規化項を持つエージェントデータ(Hermes, Glaive, GSM8K, Turing)の単一エンドツーエンドトレーニングパス
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic language model systems alternate between two structurally distinct step types: structured tool calls (short, deterministic, low perplexity) and open-ended planning/reasoning steps (long, complex, high perplexity). Despite this heterogeneity, current inference systems apply identical compute to every step. We introduce LayerRoute, a lightweight adapter that learns to selectively skip transformer blocks on a per-input basis. LayerRoute augments each of the 24 transformer blocks in Qwen2.5-0.5B-Instruct with: (1) a per-layer router (~897 parameters, Linear(896,1)) that outputs a hard binary gate via the straight-through estimator, and (2) LoRA adapters (rank 8, ~1.08M parameters) on the Q/K/V/O attention projections. The backbone weights remain frozen. A single end-to-end training pass on agentic data (Hermes, Glaive, GSM8K, Turing) with a gate regularisation term forces the system to discover which blocks are skippable per input type. After 3,000 steps (6.4 minutes on an A100 40GB), LayerRoute achieves a 12.91% skip differential: tool calls skip 15.25% of FLOPs while planning steps skip only 2.34%, using only 1.10M trainable parameters (0.22% of the 494M backbone). Quality improves over the base model due to LoRA adaptation, with perplexity delta of -1.29 on tool calls and -1.30 on planning.
- Abstract(参考訳): エージェント言語モデルは、構造化ツールコール(ショート、決定論的、低パープレキシティ)とオープンエンド計画/推論ステップ(ロング、複雑、高パープレキシティ)の2つの構造的に異なるステップタイプの間で交代する。
この不均一性にもかかわらず、現在の推論システムは全てのステップに同じ計算を適用する。
LayerRouteは、インプット毎にトランスフォーマーブロックを選択的にスキップする方法を学習する軽量アダプタである。
LayerRoute は Qwen2.5-0.5B-Instruct の 24 個のトランスフォーマーブロックをそれぞれ拡張し、(1) 層ごとのルータ (~897 パラメータ、Linear(896,1)) は、ストレートスルー推定器を介してハードバイナリゲートを出力し、(2) LORA アダプタ (rank 8, ~1.08M パラメータ) は Q/K/V/O のアテンションプロジェクションで出力する。
背骨は凍ったままである。
エージェントデータ(Hermes, Glaive, GSM8K, Turing)にゲート正規化項を付与した単一エンドツーエンドのトレーニングパスは、入力タイプ毎にどのブロックがスキップ可能かをシステムに発見させる。
3000歩(A100 40GBで6.4分)の後に、LayerRouteは12.91%のスキップ差を達成した: ツールコールはFLOPの15.25%をスキップし、計画ステップは2.34%、トレーニング可能なパラメータは1.10M(494Mバックボーンの0.22%)のみである。
品質は LoRA 適応によるベースモデルよりも向上し、ツールコールでは -1.29 、計画では -1.30 である。
関連論文リスト
- Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality [0.0]
学習したセントロイドに対するコサイン類似性ルーティングを用いたスパース・ミックス・オブ・エクササイズ(MoE)アーキテクチャを構築した。
ルーティングトポロジがパープレキシティ(PPL)を決定できないことが分かりました。
トポロジレベルの等質性と共存するエキスパートレベルと因果制御性について、共用論文で検討する。
論文 参考訳(メタデータ) (2026-04-15T21:02:02Z) - When Does Content-Based Routing Work? Representation Requirements for Selective Attention in Hybrid Sequence Models [0.0]
ハイブリッドリカレントアテンションアーキテクチャにおけるルーティングパラドックスを同定する。
コンテンツベースのルーティングは、ルーティングが避けるように設計されたペアワイズな計算を必要とすることを示す。
論文 参考訳(メタデータ) (2026-03-22T01:04:57Z) - Directional Routing in Transformers [0.0]
指向性ルーティングは、共有ルータによって制御される各トランスフォーマーアテンションヘッド学習抑制方向を提供する軽量なメカニズムである。
結果の回路を機械的解釈可能性によってトレースする。
ルーティングは、ベースラインに対するパープレキシティを31~56%削減するが、下流の多重選択ベンチマークはまだこれらの利得を反映していない。
論文 参考訳(メタデータ) (2026-03-16T07:28:22Z) - The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers [0.0]
言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:14:57Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - Skip2-LoRA: A Lightweight On-device DNN Fine-tuning Method for Low-cost Edge Devices [7.219286228148705]
本稿では,深層ニューラルネットワークの軽量微調整手法としてSkip2-LoRAを提案する。
本手法では,ネットワーク表現力を高めるため,最後の層と他の層の間にトレーニング可能なLoRAアダプタを挿入する。
以上の結果から,Skip2-LoRAはトレーニング可能なパラメータの同じパラメータに比べて,微調整時間を平均90.0%削減できることがわかった。
論文 参考訳(メタデータ) (2024-10-28T14:35:12Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and
Progressive Shift [139.17852337764586]
Vision Transformer (ViT) は、長距離依存をモデル化できるため、様々な視覚的タスクに対して大きな可能性を示している。
本稿では,複数の枝を持つラダー自己保持ブロックと,軽量トランスフォーマーバックボーンを開発するためのプログレッシブシフト機構を提案する。
論文 参考訳(メタデータ) (2023-04-07T05:21:37Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。