論文の概要: Small Language Models in the Real World: Insights from Industrial Text Classification
- arxiv url: http://arxiv.org/abs/2505.16078v1
- Date: Wed, 21 May 2025 23:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.944307
- Title: Small Language Models in the Real World: Insights from Industrial Text Classification
- Title(参考訳): 実世界の小言語モデル:産業用テキストの分類から
- Authors: Lujun Li, Lama Sleem, Niccolo' Gentile, Geoffrey Nichil, Radu State,
- Abstract要約: ChatGPTは、テキスト分類と関連するタスクが大幅に進歩している。
より小さな言語モデルがテキスト分類タスクを効果的に扱えるかどうかという問題は、重要な関心事として浮上する。
本研究は,トランスフォーマーを用いたテキスト分類のための,プロンプトエンジニアリングと教師付き微調整手法の総合評価を行う。
- 参考スコア(独自算出の注目度): 9.70280446429164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the emergence of ChatGPT, Transformer models have significantly advanced text classification and related tasks. Decoder-only models such as Llama exhibit strong performance and flexibility, yet they suffer from inefficiency on inference due to token-by-token generation, and their effectiveness in text classification tasks heavily depends on prompt quality. Moreover, their substantial GPU resource requirements often limit widespread adoption. Thus, the question of whether smaller language models are capable of effectively handling text classification tasks emerges as a topic of significant interest. However, the selection of appropriate models and methodologies remains largely underexplored. In this paper, we conduct a comprehensive evaluation of prompt engineering and supervised fine-tuning methods for transformer-based text classification. Specifically, we focus on practical industrial scenarios, including email classification, legal document categorization, and the classification of extremely long academic texts. We examine the strengths and limitations of smaller models, with particular attention to both their performance and their efficiency in Video Random-Access Memory (VRAM) utilization, thereby providing valuable insights for the local deployment and application of compact models in industrial settings.
- Abstract(参考訳): ChatGPTの出現に伴い、トランスフォーマーモデルはテキスト分類と関連するタスクを著しく進歩させた。
Llamaのようなデコーダのみのモデルは、高い性能と柔軟性を示すが、トークン・バイ・トケン生成による推論の効率の悪さに悩まされ、テキスト分類タスクにおけるそれらの有効性は、迅速な品質に大きく依存する。
さらに、GPUリソースのかなりの要件は、広く採用されることを制限していることが多い。
このように、テキスト分類タスクを効果的に処理できる言語モデルが、重要な関心事のトピックとして現れている。
しかし、適切なモデルと方法論の選択はいまだに未定である。
本稿では,トランスフォーマーを用いたテキスト分類のための,プロンプトエンジニアリングと教師付き微調整手法の総合評価を行う。
具体的には,電子メールの分類,法的文書分類,極めて長い学術文書の分類など,実践的な産業シナリオに焦点を当てる。
特にビデオランダム・アクセス・メモリ(VRAM)利用における性能と効率の両面に注目しながら,より小型なモデルの強みと限界について検討し,工業的環境におけるコンパクトなモデルのローカル展開と応用に関する貴重な知見を提供する。
関連論文リスト
- Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Small Language Models are Good Too: An Empirical Study of Zero-Shot Classification [4.4467858321751015]
異なるアーキテクチャとスコアリング関数を用いて、77Mから40Bパラメータの言語モデルをベンチマークする。
この結果から、小さなモデルはテキストを効果的に分類し、より大きなテキストに匹敵するか、上回っていることが明らかとなった。
この研究は、大きめが常に良いとは限らないという考えを強調し、リソース効率の良い小さなモデルが特定のデータ分類の課題に対して実行可能なソリューションを提供するかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-04-17T07:10:28Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Attention is Not Always What You Need: Towards Efficient Classification
of Domain-Specific Text [1.1508304497344637]
階層構造に整理された数百のクラスを持つ大規模ITコーパスでは、階層構造における上位レベルのクラスの正確な分類が不可欠である。
ビジネスの世界では、高額なブラックボックスモデルよりも効率的で説明可能なMLモデルが好まれる。
PLMが広く使われているにもかかわらず、これらのモデルがドメイン固有のテキスト分類に使われている理由として、明確で明確な必要性が欠如している。
論文 参考訳(メタデータ) (2023-03-31T03:17:23Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。