論文の概要: Unplug and Play Language Models: Decomposing Experts in Language Models at Inference Time
- arxiv url: http://arxiv.org/abs/2404.11916v3
- Date: Thu, 21 Aug 2025 14:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:45.866591
- Title: Unplug and Play Language Models: Decomposing Experts in Language Models at Inference Time
- Title(参考訳): Unplug and Play Language Models: 推論時間における言語モデルのエキスパートの分解
- Authors: Nakyeong Yang, Jiwon Moon, Junseok Kim, Yunah Jang, Kyomin Jung,
- Abstract要約: 本稿では,言語モデル内でタスク固有の専門家を動的に識別し,活性化する新しいフレームワークであるDecomposition of Experts(DoE)を紹介する。
DoEは65%のプルーニングレートでx1.73の推論スピードアップを達成し、精度を損なうことなく達成する。
- 参考スコア(独自算出の注目度): 15.695487920048816
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enabled by large-scale text corpora with huge parameters, pre-trained language models operate as multi-task experts using a single model architecture. However, recent studies have revealed that certain neurons play disproportionately important roles in solving specific tasks, suggesting that task-relevant substructures can be isolated and selectively activated for each task. Therefore, we introduce Decomposition of Experts (DoE), a novel framework that dynamically identifies and activates task-specific experts within a language model to reduce inference cost without sacrificing accuracy. We first define a task expert as a set of parameters that significantly influence the performance of a specific task and propose a four-step unplug-and-play process: (1) receiving a user request, (2) identifying the corresponding task expert, (3) performing inference using the expert-localized model, and (4) restoring the original model and waiting for the next task. Using attribution methods and prompt tuning, DoE isolates task-relevant neurons, minimizing computational overhead while maintaining task performance. We assume a setting where a language model receives user requests from five widely used natural language understanding benchmarks, processing one task at a time. In this setup, we demonstrate that DoE achieves up to a x1.73 inference speed-up with a 65% pruning rate, without compromising accuracy. Comparisons with various task expert localization methods reveal that DoE effectively identifies task experts, while ablation studies validate the importance of its components. Additionally, we analyze the effects of batch size, token count, and layer types on inference speed-up, providing practical insights for adopting DoE. The proposed framework is both practical and scalable, applicable to any transformer-based architecture, offering a robust solution for efficient task-specific inference.
- Abstract(参考訳): 巨大なパラメータを持つ大規模テキストコーパスによって実現され、訓練済み言語モデルは単一のモデルアーキテクチャを使用してマルチタスクの専門家として機能する。
しかし、最近の研究では、特定のニューロンが特定のタスクの解決において不均等に重要な役割を担っていることが明らかにされており、タスク関連サブ構造を分離し、各タスクに対して選択的に活性化できることが示唆されている。
そこで本稿では,言語モデル内のタスク固有の専門家を動的に識別・活性化する新しいフレームワークであるDecomposition of Experts(DoE)を紹介し,精度を犠牲にすることなく推論コストを削減する。
まず,タスクエキスパートを,特定のタスクのパフォーマンスに大きな影響を与えるパラメータの集合として定義し,(1)ユーザ要求の受信,(2)対応するタスクエキスパートの識別,(3)エキスパート局所化モデルを用いた推論の実行,(4)元のモデルを復元して次のタスクを待つ4段階のアンプラグ・アンド・プレイプロセスを提案する。
帰属法と即時チューニングを用いて、DoEはタスク関連ニューロンを分離し、タスク性能を維持しながら計算オーバーヘッドを最小限にする。
言語モデルが広く使われている5つの自然言語理解ベンチマークからユーザリクエストを受け取り、一度に1つのタスクを処理する設定を仮定する。
この設定では、精度を損なうことなく、最大65%のプルーニングレートでx1.73の推論速度を達成できることを実証する。
各種タスクエキスパートのローカライズ手法との比較により,DoEはタスクエキスパートを効果的に同定し,アブレーション研究はそのコンポーネントの重要性を検証した。
さらに、バッチサイズ、トークン数、レイヤタイプが推論速度アップに与える影響を分析し、DoEを採用するための実践的な洞察を提供する。
提案するフレームワークは実用的かつスケーラブルであり、あらゆるトランスフォーマーベースのアーキテクチャに適用可能であり、効率的なタスク固有推論のための堅牢なソリューションを提供する。
関連論文リスト
- Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning [76.32953653161417]
クラス増分学習は、モデルが学習したクラスの知識を保持しながら、新しいクラスを段階的に学習することを可能にする。
この分野での最近の進歩はパラメータ効率のよい微調整技術へと移行している。
本稿では,現在のアプローチの限界に対処する新しいプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:27:37Z) - Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning [0.08795040582681389]
大規模言語モデル (LLMs) は近年,プロンプトを用いた特殊タスクにおいて大きな人気を集めている。
本稿では,ランダムトークンの代わりに有意な単語を用いたプロンプトおよびプレフィックスチューニングのためのセマンティック知識チューニング(SK-Tuning)を提案する。
実験結果から,SK-Tuningは,テキスト分類や理解などのタスクにおいて,より高速なトレーニング時間,少ないパラメータ,優れたパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2024-10-11T07:55:09Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - Resource-Efficient Transfer Learning From Speech Foundation Model Using
Hierarchical Feature Fusion [44.056153052137674]
本稿では,音声基礎モデルから資源効率の高い伝達学習を実現するための階層的特徴融合法を提案する。
実験結果から,提案手法は既存のアルゴリズムよりも音声認識タスクの性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-11-04T19:03:45Z) - Prompt-Matched Semantic Segmentation [96.99924127527002]
本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
論文 参考訳(メタデータ) (2022-08-22T09:12:53Z) - IDPG: An Instance-Dependent Prompt Generation Method [58.45110542003139]
Prompt tuningは、モデルトレーニング段階で各入力インスタンスにタスク固有のプロンプトを追加する、新しい、効率的なNLP転送学習パラダイムである。
本稿では,各入力インスタンスのプロンプトを生成する条件付きプロンプト生成手法を提案する。
論文 参考訳(メタデータ) (2022-04-09T15:45:27Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。