論文の概要: Can abstract concepts from LLM improve SLM performance?
- arxiv url: http://arxiv.org/abs/2512.19069v1
- Date: Mon, 22 Dec 2025 06:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.639162
- Title: Can abstract concepts from LLM improve SLM performance?
- Title(参考訳): LLMの抽象概念はSLMの性能を向上させるか?
- Authors: Siddharth Tandon,
- Abstract要約: 大規模言語モデル(LLM)は多様なタスクで優れているが、リソース制約のあるデバイスへの展開は依然として困難である。
量子化、プルーニング、蒸留といった既存の手法はメモリフットプリントを削減できるが、大規模な実験と慎重なインフラ設計を必要とすることが多い。
推論中、より小さな言語モデル(SLM)への転送可能性について検討する。
- 参考スコア(独自算出の注目度): 0.6875312133832079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at diverse tasks, but their deployment on resource-constrained devices remains challenging. Existing methods like quantization, pruning, and distillation can reduce memory footprint but often demand extensive experimentation and careful infrastructure design. Leveraging existing techniques for extracting high-level concepts (represented as steering vectors) from larger models, we investigate their transferability to smaller language models (SLM) during inference. We demonstrate through extensive experimentation that these concepts can be effectively transferred to smaller models, irrespective of their family (e.g., Phi, Llama, Qwen), leading to performance improvements across a wide range of tasks. Furthermore, we introduce inference-time scaling to enhance performance by dynamically adjusting the steering intensity which has resulted in a 7-15\% of accuracy improvement for Qwen3-0.6B.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なタスクで優れているが、リソース制約のあるデバイスへの展開は依然として困難である。
量子化、プルーニング、蒸留といった既存の手法はメモリフットプリントを削減できるが、大規模な実験と慎重なインフラ設計を必要とすることが多い。
大規模モデルから高レベル概念(ステアリングベクトルとして表現される)を抽出する既存の手法を活用し,推論時により小さな言語モデル(SLM)への転送可能性を検討する。
我々は、これらの概念が家族(例えば、Phi、Llama、Qwen)によらず、より小さなモデルに効果的に移行できることを広範囲にわたる実験を通して実証した。
さらに,Qwen3-0.6Bの精度を7~15倍に向上させるステアリング強度を動的に調整することで,推論時間スケーリングを導入して性能を向上させる。
関連論文リスト
- Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models [42.449334670206824]
テキスト由来のステアリングは多様なMLLMアーキテクチャや視覚タスクのマルチモーダル精度を一貫して向上させる。
平均シフトはCV-Bench上の空間関係の精度を+7.3%、精度を+3.3%向上させる。
その結果、テキストステアリングベクトルは、最小限のデータ収集と計算オーバーヘッドでMLLMのグラウンド化を強化するための強力で効率的なメカニズムとして強調された。
論文 参考訳(メタデータ) (2025-05-20T08:23:08Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。