論文の概要: A thorough benchmark of automatic text classification: From traditional approaches to large language models
- arxiv url: http://arxiv.org/abs/2504.01930v1
- Date: Wed, 02 Apr 2025 17:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:55.993540
- Title: A thorough benchmark of automatic text classification: From traditional approaches to large language models
- Title(参考訳): 自動テキスト分類の徹底的なベンチマーク:従来のアプローチから大規模言語モデルへ
- Authors: Washington Cunha, Leonardo Rocha, Marcos André Gonçalves,
- Abstract要約: 本研究は,近年のアプローチの有効性が,コストの増大を補うかどうかを考察する。
これには、従来の12のATCソリューションと最近のATCソリューションの費用対効果に関する科学的に健全な比較分析が含まれている。
コード、データ、ドキュメントのリリースにより、コミュニティは実験を複製し、フィールドを前進させることができる。
- 参考スコア(独自算出の注目度): 9.069939079065298
- License:
- Abstract: Automatic text classification (ATC) has experienced remarkable advancements in the past decade, best exemplified by recent small and large language models (SLMs and LLMs), leveraged by Transformer architectures. Despite recent effectiveness improvements, a comprehensive cost-benefit analysis investigating whether the effectiveness gains of these recent approaches compensate their much higher costs when compared to more traditional text classification approaches such as SVMs and Logistic Regression is still missing in the literature. In this context, this work's main contributions are twofold: (i) we provide a scientifically sound comparative analysis of the cost-benefit of twelve traditional and recent ATC solutions including five open LLMs, and (ii) a large benchmark comprising {22 datasets}, including sentiment analysis and topic classification, with their (train-validation-test) partitions based on folded cross-validation procedures, along with documentation, and code. The release of code, data, and documentation enables the community to replicate experiments and advance the field in a more scientifically sound manner. Our comparative experimental results indicate that LLMs outperform traditional approaches (up to 26%-7.1% on average) and SLMs (up to 4.9%-1.9% on average) in terms of effectiveness. However, LLMs incur significantly higher computational costs due to fine-tuning, being, on average 590x and 8.5x slower than traditional methods and SLMs, respectively. Results suggests the following recommendations: (1) LLMs for applications that require the best possible effectiveness and can afford the costs; (2) traditional methods such as Logistic Regression and SVM for resource-limited applications or those that cannot afford the cost of tuning large LLMs; and (3) SLMs like Roberta for near-optimal effectiveness-efficiency trade-off.
- Abstract(参考訳): 自動テキスト分類(ATC)は過去10年間に顕著な進歩を経験しており、トランスフォーマーアーキテクチャによって活用されている最近の中小および大規模言語モデル(SLM)やLLM(LLM)が最もよく例示されている。
最近の効果改善にもかかわらず、最近のアプローチの有効性が、SVMやロジスティック回帰のようなより伝統的なテキスト分類手法と比較してはるかに高いコストを補うかどうかを総合的なコスト便益分析は、まだ文献に欠けている。
この文脈では、この作品の主な貢献は2つある。
i) 5つのオープンLCMを含む12の従来のATCソリューションと最近のATCソリューションの費用対効果に関する科学的に健全な比較分析を行い、
(i)感情分析やトピック分類を含む22のデータセットと,折り畳まれたクロスバリデーション手順に基づく(トレーニング検証-テスト)パーティションと,ドキュメントとコードを含む大規模なベンチマーク。
コード、データ、ドキュメントのリリースにより、コミュニティは実験を再現し、より科学的に健全な方法でフィールドを前進させることができる。
比較実験の結果,LSMは従来のアプローチ(平均で26%-7.1%)とSLM(平均で4.9%-1.9%)を上回った。
しかし、LSMは微調整により、従来の手法やSLMよりも平均590倍、平均8.5倍遅いため、計算コストが大幅に高くなる。
その結果,1) 有効性を最も要求し,コストを削減できるアプリケーションのためのLLM,2) リソース制限されたアプリケーションのためのロジスティック回帰やSVM,あるいは大規模なLLMをチューニングできないアプリケーションのための従来の手法,3) ロバータのようなSLMは,ほぼ最適に有効かつ効率の良いトレードオフを実現すること,などが示唆された。
関連論文リスト
- Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - PoliPrompt: A High-Performance Cost-Effective LLM-Based Text Classification Framework for Political Science [1.6967824074619953]
本稿では,大規模言語モデルを活用して分類精度を向上させる3段階のインコンテキスト学習手法を提案する。
我々は,BBCの報道,カバノー最高裁判所の確認,2018年の選挙キャンペーン広告のデータセットを用いて,我々のアプローチを検証する。
その結果, 管理可能な経済コストによる分類F1スコア(ゼロショット分類では+0.36)の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-09-02T21:05:31Z) - LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs? [2.7820774076399957]
近年のLLM拡張法と確立された手法を6つのデータセット,3つの分類器,2つの微調整方法に比較した。
LLM法は, ごく少数の種子を用いる場合にのみ, 展開に有用であることを示す。
論文 参考訳(メタデータ) (2024-08-29T13:01:42Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Making LLMs Worth Every Penny: Resource-Limited Text Classification in
Banking [3.9412826185755017]
LLM(Lew-shot and Large Language Model)は、クラス毎にたった1~5つの例で効果的に機能する。
我々の研究は、バンクス77財務意図検出データセットによるこれらの手法のパフォーマンスとコストのトレードオフに対処する。
今後の研究に刺激を与えるため、人間の専門家によるBanking77のキュレートされたサブセットと、広範なエラー分析を提供する。
論文 参考訳(メタデータ) (2023-11-10T15:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。