論文の概要: A Strategy to Combine 1stGen Transformers and Open LLMs for Automatic Text Classification
- arxiv url: http://arxiv.org/abs/2408.09629v1
- Date: Mon, 19 Aug 2024 01:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:03:47.202532
- Title: A Strategy to Combine 1stGen Transformers and Open LLMs for Automatic Text Classification
- Title(参考訳): 1stGen 変換器とオープン LLM を併用したテキストの自動分類手法
- Authors: Claudio M. V. de Andrade, Washington Cunha, Davi Reis, Adriana Silvina Pagano, Leonardo Rocha, Marcos André Gonçalves,
- Abstract要約: 大規模言語モデル(LLM)は、いくつかのNLPタスクにおいて最先端と見なされている。
本研究では,11の感情分析データセットを対象とした3つの1stTRと2つのオープンLLMを比較した。
本稿では,1stTR をオープン LLM とシームレスに統合する戦略を提案する。
- 参考スコア(独自算出の注目度): 7.303409990401068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have achieved state-of-the-art results, with Large Language Models (LLMs), an evolution of first-generation transformers (1stTR), being considered the cutting edge in several NLP tasks. However, the literature has yet to conclusively demonstrate that LLMs consistently outperform 1stTRs across all NLP tasks. This study compares three 1stTRs (BERT, RoBERTa, and BART) with two open LLMs (Llama 2 and Bloom) across 11 sentiment analysis datasets. The results indicate that open LLMs may moderately outperform or match 1stTRs in 8 out of 11 datasets but only when fine-tuned. Given this substantial cost for only moderate gains, the practical applicability of these models in cost-sensitive scenarios is questionable. In this context, a confidence-based strategy that seamlessly integrates 1stTRs with open LLMs based on prediction certainty is proposed. High-confidence documents are classified by the more cost-effective 1stTRs, while uncertain cases are handled by LLMs in zero-shot or few-shot modes, at a much lower cost than fine-tuned versions. Experiments in sentiment analysis demonstrate that our solution not only outperforms 1stTRs, zero-shot, and few-shot LLMs but also competes closely with fine-tuned LLMs at a fraction of the cost.
- Abstract(参考訳): トランスフォーマーモデルは、いくつかのNLPタスクにおいて最先端と見なされる第1世代トランスフォーマー (1stTR) の進化であるLarge Language Models (LLMs) を用いて、最先端の結果を得た。
しかしながら、LLMが全てのNLPタスクで1stTRを一貫して上回っているという結論はまだ得られていない。
本研究では,11の感情分析データセットを対象とした3つの1stTR(BERT,RoBERTa,BART)と2つのオープンLLM(Llama 2,Bloom)を比較した。
その結果、オープンLLMは11のデータセットのうち8の1stTRよりも適度に優れているか、一致している可能性があるが、微調整された場合に限られることがわかった。
ある程度の利益しか得られないこのかなりのコストを考えると、これらのモデルがコストに敏感なシナリオで実際に適用可能であることは疑わしい。
この文脈では、予測確実性に基づいて1stTRとオープンLLMをシームレスに統合する信頼性ベースの戦略が提案されている。
高信頼度文書はよりコスト効率のよい1stTRによって分類されるが、不確実なケースはゼロショットモードや少数ショットモードのLCMによって処理され、微調整バージョンよりもはるかに低コストである。
感情分析実験により、我々の解は1stTR, 0-shot, few-shot LLMよりも優れるだけでなく、微調整LDMとわずかなコストで密接に競合することを示した。
関連論文リスト
- Matmul or No Matmal in the Era of 1-bit LLMs [0.48212500317840945]
1ビットの大規模言語モデル(LLM)が注目され、新たな研究機会が開かれた。
しかし、1ビット LLM は射影層に極端な量子化を適用することで、少数のモデルを改善するのみである。
本研究では, 1 ビット LLM コンテキストに適した Amdahl's Law の適応について述べる。
論文 参考訳(メタデータ) (2024-08-21T18:44:21Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。
しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。
本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction [12.611106580612033]
大規模言語モデル(LLM)は多くの属性抽出タスクにおいて最先端の性能を示す。
属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルと呼ばれる新しいアルゴリズムを提案する。
提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
論文 参考訳(メタデータ) (2024-02-29T23:03:19Z) - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (2024-02-27T18:56:19Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。