論文の概要: ProbeScale: Probing Analysis to Optimize Neural Scaling Laws for Efficient Small Language Model Inference
- arxiv url: http://arxiv.org/abs/2606.01806v1
- Date: Mon, 01 Jun 2026 07:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.488748
- Title: ProbeScale: Probing Analysis to Optimize Neural Scaling Laws for Efficient Small Language Model Inference
- Title(参考訳): ProbeScale: 効率的な小言語モデル推論のためのニューラルスケーリング法則を最適化するための探索分析
- Authors: Sourav Das,
- Abstract要約: 小型言語モデル(SLM)は、能力と計算能力のバランスを提供する。
本稿では,スケーリング法則から洞察を統一し,事前学習されたSLM内のパラメータ効率の高いエンコードワークを識別するフレームワークであるProbScaleを提案する。
- 参考スコア(独自算出の注目度): 6.450513406220551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small Language Models (SLMs) offer a balance between capability and computational feasibility. Neural scaling laws inform their optimal training, suggesting that they possess rich internal representations that scale with their size. However, deploying even these SLMs can be challenging under strict resource constraints. Language model probing provides methods for analyzing the linguistic knowledge encoded in a model's internals. We propose ProbScale, a framework that unifies insights from scaling laws and probing to identify parameter-efficient subnetworks within pre-trained SLMs. ProbScale utilizes the high-quality representations of well-scaled SLMs and uses task-specific probes to mathematically quantify the relevance of each layer for target downstream capabilities. This allows selecting subnetworks that optimally trade off performance against parameter size. We formulate the subnetwork selection as finding a layer subset maximizing aggregated, task-weighted probe performance under a parameter budget. Experiments on representative SLMs such as RoBERTa-Large and T5-Base demonstrate that ProbScale identifies subnetworks achieving significant parameter reduction, from 5 to 10 times, while maintaining high performance (95% to 98% of the original SLMs) on targeted tasks, outperforming heuristic baselines.
- Abstract(参考訳): 小型言語モデル(SLM)は、能力と計算能力のバランスを提供する。
ニューラルスケーリング法則は最適なトレーニングを通知し、そのサイズに合わせてスケールする豊富な内部表現を持っていることを示唆する。
しかし、これらのSLMをデプロイしても、厳格なリソース制約の下では困難である。
言語モデル探索は、モデルの内部に符号化された言語知識を分析する方法を提供する。
本稿では,スケーリング法則から洞察を統一し,事前学習されたSLM内のパラメータ効率の高いサブネットワークを同定するフレームワークであるProbScaleを提案する。
ProbScaleは、高度にスケールされたSLMの高品質な表現を利用し、タスク固有のプローブを使用して、ターゲット下流機能に対する各レイヤの関連性を数学的に定量化する。
これにより、パラメータサイズに対してパフォーマンスを最適にトレードオフするサブネットワークを選択することができる。
サブネットワークの選択は、パラメータ予算の下で集約されたタスク重み付きプローブ性能を最大化するレイヤサブセットとして定式化する。
RoBERTa-LargeやT5-Baseといった代表的SLMの実験では、ProbScaleは目標タスクにおける高性能(元のSLMの95%から98%)を維持しながら、5倍から10倍のパラメータ削減を実現したサブネットワークを識別し、ヒューリスティックベースラインを上回っている。
関連論文リスト
- Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Cluster Topology-Driven Placement of Experts Reduces Network Traffic in MoE Inference [49.141930185079325]
提案する整数線形プログラム(ILP)は,期待される送信数を最小限に抑え,専門家の最適な配置を決定する。
ILPベースの配置戦略は,小型モデル(DeepSeekMoE16B)や大規模モデル(DeepSeek-R1671B)と比較してネットワークトラフィックが低いことを示す。
論文 参考訳(メタデータ) (2025-08-12T07:08:48Z) - Probabilistic Optimality for Inference-time Scaling [8.126757296203957]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。
本稿では,並列サンプルが独立かつ同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。
サンプル応答の最適数を動的に決定する実用的なアルゴリズムである OptScale を開発した。
論文 参考訳(メタデータ) (2025-06-27T16:44:11Z) - LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。
LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。
特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。
次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文 参考訳(メタデータ) (2025-05-01T15:07:32Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [67.97870844244187]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。