論文の概要: Task-Centric Acceleration of Small-Language Models
- arxiv url: http://arxiv.org/abs/2602.24174v1
- Date: Fri, 27 Feb 2026 16:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.525547
- Title: Task-Centric Acceleration of Small-Language Models
- Title(参考訳): 小言語モデルのタスク中心加速
- Authors: Dor Tsur, Sharon Adar, Ran Levy,
- Abstract要約: 小言語モデル (SLM) はタスク固有のアプリケーションのための大規模言語モデルの効率的な代替手段として登場した。
SLM加速のためのフレームワークであるTASC, Task-Adaptive Sequence Compressionを提案する。
タスク性能を維持しながら、推論効率が一貫した改善を示す。
- 参考スコア(独自算出の注目度): 7.65690957032631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (SLMs) have emerged as efficient alternatives to large language models for task-specific applications. However, they are often employed in high-volume, low-latency settings, where efficiency is crucial. We propose TASC, Task-Adaptive Sequence Compression, a framework for SLM acceleration comprising two use-cases: When performing SLM fine-tuning, we propose TASC-ft, which iteratively enriches the tokenizer vocabulary with high-frequency output n-grams and then fine-tunes the model to utilize the expanded vocabulary. Next, we propose an inference-time method, termed TASC-spec. TASC-spec is a lightweight, training-free speculative decoding method that constructs an n-gram draft model from the task's output corpus, mixing task and context n-gram information.TASC-spec avoids any additional training, while bypassing draft-target vocabulary alignment constraints. We demonstrate the effectiveness of both methods across multiple low output-variability generation tasks. Our methods show consistent improvements in inference efficiency while maintaining task performance.
- Abstract(参考訳): 小言語モデル (SLM) はタスク固有のアプリケーションのための大規模言語モデルの効率的な代替手段として登場した。
しかし、効率が不可欠である高ボリュームで低レイテンシな設定でしばしば使用される。
TASC, Task-Adaptive Sequence Compression, a framework for SLM acceleration including two use-cases: performing SLM fine-tuning, we propose TASC-ft, which is alsorichs the tokenizer vocabulary with high- frequency output n-grams and then fine-tunes the model to use the expanded vocabulary。
次に、TASC-specと呼ばれる推論時間法を提案する。
TASC-specは、タスクの出力コーパスからn-gramのドラフトモデルを構築し、タスクとコンテキストn-gramの情報を混合する軽量なトレーニング不要な投機的復号法である。
本稿では,複数の低出力変数生成タスクにおける両手法の有効性を示す。
提案手法は,タスク性能を維持しながら,推論効率が一貫した改善を示す。
関連論文リスト
- Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning [0.08795040582681389]
大規模言語モデル (LLMs) は近年,プロンプトを用いた特殊タスクにおいて大きな人気を集めている。
本稿では,ランダムトークンの代わりに有意な単語を用いたプロンプトおよびプレフィックスチューニングのためのセマンティック知識チューニング(SK-Tuning)を提案する。
実験結果から,SK-Tuningは,テキスト分類や理解などのタスクにおいて,より高速なトレーニング時間,少ないパラメータ,優れたパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2024-10-11T07:55:09Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Task-guided Disentangled Tuning for Pretrained Language Models [16.429787408467703]
本稿では,事前学習型言語モデル(PLM)のためのタスク誘導型ディスタングル型チューニング(TDT)を提案する。
TDTは、タスク関連信号を絡み合った表現から切り離すことにより、表現の一般化を強化する。
GLUE と CLUE のベンチマークによる実験結果から,TDT は異なる PLM を用いた微調整よりも一貫した結果が得られた。
論文 参考訳(メタデータ) (2022-03-22T03:11:39Z) - HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks [38.43269863509866]
パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
論文 参考訳(メタデータ) (2022-03-08T06:51:33Z) - AStitchInLanguageModels: Dataset and Methods for the Exploration of
Idiomaticity in Pre-Trained Language Models [7.386862225828819]
本研究は、MWEを含む自然発生文のデータセットを、細かな意味の集合に手作業で分類する。
我々は,このデータセットを,idiomを含む文の表現生成における言語モデルの有効性と,idiomを用いた言語モデルの有効性を検証するために,2つのタスクで使用する。
論文 参考訳(メタデータ) (2021-09-09T16:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。