論文の概要: Evaluation of Few-Shot Learning for Classification Tasks in the Polish Language
- arxiv url: http://arxiv.org/abs/2404.17832v1
- Date: Sat, 27 Apr 2024 08:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:01:27.487286
- Title: Evaluation of Few-Shot Learning for Classification Tasks in the Polish Language
- Title(参考訳): ポーランド語の分類課題に対するFew-Shot Learningの評価
- Authors: Tsimur Hadeliya, Dariusz Kajtoch,
- Abstract要約: ポーランド語に固有の7つの異なる分類タスクからなる数ショットのベンチマークを導入する。
各種の訓練済み商用およびオープンソースモデルを用いて, 微調整, 線形探索, SetFit, テキスト内学習 (ICL) の0と16ショットを比較した。
ICL は GPT-3.5 や GPT-4 などの商用モデルで最高の性能を達成している。
- 参考スコア(独自算出の注目度): 0.1534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a few-shot benchmark consisting of 7 different classification tasks native to the Polish language. We conducted an empirical comparison with 0 and 16 shots between fine-tuning, linear probing, SetFit, and in-context learning (ICL) using various pre-trained commercial and open-source models. Our findings reveal that ICL achieves the best performance, with commercial models like GPT-3.5 and GPT-4 attaining the best performance. However, there remains a significant 14 percentage points gap between our best few-shot learning score and the performance of HerBERT-large fine-tuned on the entire training dataset. Among the techniques, SetFit emerges as the second-best approach, closely followed by linear probing. We observed the worst and most unstable performance with non-linear head fine-tuning. Results for ICL indicate that continual pre-training of models like Mistral-7b or Llama-2-13b on Polish corpora is beneficial. This is confirmed by the improved performances of Bielik-7b and Trurl-13b, respectively. To further support experiments in few-shot learning for Polish, we are releasing handcrafted templates for the ICL.
- Abstract(参考訳): ポーランド語に固有の7つの異なる分類タスクからなる数ショットのベンチマークを導入する。
各種の訓練済み商用およびオープンソースモデルを用いて, 微調整, 線形探索, SetFit, テキスト内学習 (ICL) の0と16ショットを比較した。
その結果,ICLはGPT-3.5やGPT-4などの商用モデルで最高の性能を得ることができた。
しかし、最高の数点の学習スコアと、トレーニングデータセット全体に対して調整されたHerBERT-largeのパフォーマンスとの間には、大きな14パーセントの差がある。
テクニックの中で、SetFitは第2のベストアプローチとして登場し、線形探索が密接に続く。
非リニアヘッドファインチューニングで最悪の,最も不安定な動作を観察した。
ICLの結果、ポーランドのコーパス上でMistral-7bやLlama-2-13bのようなモデルの連続的な事前訓練が有用であることが示唆された。
これはそれぞれビエリク7bとトルル13bの性能改善によって確認される。
ポーランド語のための数発の学習実験をさらに支援するため、ICL用の手作りテンプレートをリリースする。
関連論文リスト
- Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation [0.0]
Bielik 7B v0.1はポーランド語処理のための生成テキストモデルである。
革新的手法による言語モデル開発における重要な課題に対処する。
RAG ReaderタスクではMistral-7B-v0.1に比べて平均スコアが9パーセント向上した。
また、特にReasoning (6.15/10) と Role-playing (7.83/10) のカテゴリーにおいて、ポーランドのMT-Benchを抜粋している。
論文 参考訳(メタデータ) (2024-10-24T09:16:09Z) - How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes [2.0109318570325847]
ソフトウェア分野の特定の組織からTMを用いたLlama 3モデルの微調整の影響について検討する。
トレーニングセット毎にモデルを微調整し,自動メトリクス,BLEU,chrF++,TER,COMETに基づいて評価する。
以上の結果から,全指標にまたがるより大きなデータセットによる翻訳性能の向上が示された。
論文 参考訳(メタデータ) (2024-09-05T12:06:38Z) - Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Efficient Language Adaptive Pre-training: Extending State-of-the-Art
Large Language Models for Polish [0.0]
本研究では,ポーランド語文を生成するための基礎言語モデル (LLM) の微調整の可能性について検討する。
最初のステップはLanguage Adaptive Pre-training (LAPT)で、2億7600万のポーランドのトークンからなる3.11GBの高品質データセットをトレーニングする。
訓練されたCurie-7B-v1は、デコーダベースポーランドモデルの中で、最低パープレクティリティ3.02のポーランド語テキストを生成するだけでなく、最高のポーランド語エンコーダ-デコーダモデルの性能と密接に競合する。
論文 参考訳(メタデータ) (2024-02-15T07:17:10Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。