論文の概要: Classifier Language Models: Unifying Sparse Finetuning and Adaptive Tokenization for Specialized Classification Tasks
- arxiv url: http://arxiv.org/abs/2508.08635v1
- Date: Tue, 12 Aug 2025 04:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.303814
- Title: Classifier Language Models: Unifying Sparse Finetuning and Adaptive Tokenization for Specialized Classification Tasks
- Title(参考訳): 分類言語モデル:特殊化タスクのためのスパースファインタニングと適応的トークン化の統合
- Authors: Adit Krishnan, Chu Wang, Chris Kong,
- Abstract要約: トークン駆動のスパースファインタニング戦略を開発し,小言語モデルを特殊分類タスクに適応させる。
微調整データセットのタスク固有のトークン構造を利用して、モデルパラメータの小さなセンシティブなサブセットを特定し、微調整する。
トレーニングコストとエンドツーエンドのファインタニングよりも高い安定性を実現しています。
- 参考スコア(独自算出の注目度): 5.857929080874287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic text classification requires the understanding of the contextual significance of specific tokens rather than surface-level patterns or keywords (as in rule-based or statistical text classification), making large language models (LLMs) well-suited for this task. However, semantic classification applications in industry, like customer intent detection or semantic role labeling, tend to be highly specialized. They require annotation by domain experts in contrast to general-purpose corpora for pretraining. Further, they typically require high inference throughputs which limits the model size from latency and cost perspectives. Thus, for a range of specialized classification tasks, the preferred solution is to develop customized classifiers by finetuning smaller language models (e.g., mini-encoders, small language models). In this work, we develop a token-driven sparse finetuning strategy to adapt small language models to specialized classification tasks. We identify and finetune a small sensitive subset of model parameters by leveraging task-specific token constructs in the finetuning dataset, while leaving most of the pretrained weights unchanged. Unlike adapter approaches such as low rank adaptation (LoRA), we do not introduce additional parameters to the model. Our approach identifies highly relevant semantic tokens (case study in the Appendix) and outperforms end-to-end finetuning, LoRA, layer selection, and prefix tuning on five diverse semantic classification tasks. We achieve greater stability and half the training costs vs. end-to-end finetuning.
- Abstract(参考訳): セマンティックテキスト分類は、(規則に基づくまたは統計的なテキスト分類のように)表面レベルのパターンやキーワードではなく、特定のトークンの文脈的重要性を理解することを必要とし、このタスクには大きな言語モデル(LLM)が適している。
しかし、顧客意図の検出やセマンティックロールラベリングのような業界におけるセマンティックな分類の応用は、高度に専門化されがちである。
これらは、事前訓練のための汎用コーパスとは対照的に、ドメインエキスパートによるアノテーションを必要とする。
さらに、レイテンシやコストの観点から、モデルのサイズを制限する高い推論スループットを必要とするのが一般的です。
したがって、様々な特殊な分類タスクに対して、より小さな言語モデル(例えば、ミニエンコーダ、小さな言語モデル)を微調整することで、カスタマイズされた分類器を開発することが好ましい。
本研究では,トークン駆動型スパースファインタニング手法を開発し,小言語モデルを特殊分類タスクに適用する。
我々は、微調整データセットのタスク固有のトークン構造を利用して、モデルパラメータの小さなセンシティブなサブセットを特定し、微調整する。
低ランク適応(LoRA)のようなアダプタアプローチとは異なり、モデルに新たなパラメータを導入することはない。
提案手法は,高度な意味的トークン(Appendixのケーススタディ)を特定し,5つの多種多様な意味的分類タスクにおいて,エンドツーエンドの微調整,LoRA,層選択,プレフィックスチューニングに優れる。
トレーニングコストとエンドツーエンドのファインタニングよりも高い安定性を実現しています。
関連論文リスト
- GLiClass: Generalist Lightweight Model for Sequence Classification Tasks [49.2639069781367]
本稿では,シーケンス分類タスクにGLiNERアーキテクチャを適用する新しい手法であるGLiClassを提案する。
提案手法は,ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持しつつ,埋め込み方式に匹敵する高い精度と効率を実現する。
論文 参考訳(メタデータ) (2025-08-11T06:22:25Z) - Large Language Models in the Task of Automatic Validation of Text Classifier Predictions [55.2480439325792]
テキスト分類のための機械学習モデルは、与えられたテキストのクラスを予測するために訓練される。
これを行うには、トレーニングと検証のサンプルを用意し、各テキストにクラスを割り当てる必要がある。
人間のアノテーションは通常、特定の分類タスクによって異なる専門レベルを持つ人間のアノテーションによって割り当てられる。
本稿では,人間のアノテータを大規模言語モデルに置き換えるためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:19:03Z) - Self-Regularization with Sparse Autoencoders for Controllable LLM-based Classification [29.74457390987092]
大規模言語モデル(LLM)潜在空間における意図しない特徴を特定し,規則化する新しいフレームワークを提案する。
本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
論文 参考訳(メタデータ) (2025-02-19T22:27:59Z) - SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics [2.3742710594744105]
SciPromptは,低リソーステキスト分類タスクに対して,科学的トピック関連用語を自動的に検索するフレームワークである。
本手法は, ほとんど, ゼロショット設定下での科学的テキスト分類作業において, 最先端, 即時的な微調整法より優れる。
論文 参考訳(メタデータ) (2024-10-02T18:45:04Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Attention is Not Always What You Need: Towards Efficient Classification
of Domain-Specific Text [1.1508304497344637]
階層構造に整理された数百のクラスを持つ大規模ITコーパスでは、階層構造における上位レベルのクラスの正確な分類が不可欠である。
ビジネスの世界では、高額なブラックボックスモデルよりも効率的で説明可能なMLモデルが好まれる。
PLMが広く使われているにもかかわらず、これらのモデルがドメイン固有のテキスト分類に使われている理由として、明確で明確な必要性が欠如している。
論文 参考訳(メタデータ) (2023-03-31T03:17:23Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。