論文の概要: Open, Closed, or Small Language Models for Text Classification?
- arxiv url: http://arxiv.org/abs/2308.10092v1
- Date: Sat, 19 Aug 2023 18:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:59:15.625261
- Title: Open, Closed, or Small Language Models for Text Classification?
- Title(参考訳): テキスト分類のためのオープン,クローズド,あるいはスモール言語モデル?
- Authors: Hao Yu, Zachary Yang, Kellin Pelrine, Jean Francois Godbout, Reihaneh
Rabbany
- Abstract要約: 我々は,3つの異なるNLPタスクにまたがる8つのデータセットを用いて,モデルの3つのクラスを評価する。
オープンソースモデルは、微調整によってクローズドソースモデルに匹敵する可能性がある。
本研究は,タスク要求に基づくモデル選択の重要性を浮き彫りにする。
- 参考スコア(独自算出の注目度): 10.186568241388331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models have demonstrated remarkable
capabilities across various NLP tasks. But many questions remain, including
whether open-source models match closed ones, why these models excel or
struggle with certain tasks, and what types of practical procedures can improve
performance. We address these questions in the context of classification by
evaluating three classes of models using eight datasets across three distinct
tasks: named entity recognition, political party prediction, and misinformation
detection. While larger LLMs often lead to improved performance, open-source
models can rival their closed-source counterparts by fine-tuning. Moreover,
supervised smaller models, like RoBERTa, can achieve similar or even greater
performance in many datasets compared to generative LLMs. On the other hand,
closed models maintain an advantage in hard tasks that demand the most
generalizability. This study underscores the importance of model selection
based on task requirements
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、様々なNLPタスクにまたがる顕著な能力を示している。
しかし、オープンソースモデルがクローズドモデルにマッチするかどうか、なぜこれらのモデルが特定のタスクに長けているのか、どのような実践的な手順がパフォーマンスを向上させるのかなど、多くの疑問が残る。
これらの質問を分類の文脈で扱うために,8つのデータセットを用いた3つのモデルのクラス,すなわち名前付きエンティティ認識,政党予測,誤情報検出について評価する。
より大きなLCMは性能改善につながることが多いが、オープンソースモデルは微調整によってクローズドソースモデルと競合することがある。
さらに、RoBERTaのような教師付き小さなモデルは、生成LDMと比較して、多くのデータセットで同様のあるいはそれ以上のパフォーマンスを達成することができる。
一方、閉モデルは最も一般化性を必要とするハードタスクにおいて優位性を維持している。
本研究はタスク要求に基づくモデル選択の重要性を強調する
関連論文リスト
- Rethinking Scale: The Efficacy of Fine-Tuned Open-Source LLMs in Large-Scale Reproducible Social Science Research [0.0]
大規模言語モデル(LLM)は、パラメータのサイズと性能を規定するアーキテクチャによって区別される。
社会科学者はテキスト分類タスクにLLMを採用しており、人間のコーダーではスケールが難しい。
本研究は,ChatGPT-4 などのモデルに対して,小型かつ微調整のオープンソース LLM が同等あるいは優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-31T20:26:30Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks [0.0]
我々は,小さなエンコーダモデルであると同時に,様々な情報抽出タスクに使用できる新しい種類のGLiNERモデルを導入する。
我々のモデルは,ゼロショットNERベンチマークにおけるSoTA性能を達成し,質問応答,要約,関係抽出タスクにおける主要な性能を実現した。
論文 参考訳(メタデータ) (2024-06-14T13:54:29Z) - Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection [2.2724928083094196]
本研究は,SemEval 2022 Task 2a, FLUTE, MAGPIEの3つの慣用性データセット上でのLLMの性能について考察する。
これらのモデルが競合する性能を与える一方で、最大のスケールであっても、微調整されたタスク固有モデルの結果と一致しないことがわかった。
論文 参考訳(メタデータ) (2024-05-15T11:55:14Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。