論文の概要: Fine-Tuning Small Embeddings for Elevated Performance
- arxiv url: http://arxiv.org/abs/2411.18099v1
- Date: Wed, 27 Nov 2024 07:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:16.651910
- Title: Fine-Tuning Small Embeddings for Elevated Performance
- Title(参考訳): 微調整による高性能化
- Authors: Biraj Silwal,
- Abstract要約: この研究はネパール語で事前訓練された6つの注意点を持つ不完全なBERTモデルを採用し、これまで見つからなかったデータに基づいて微調整した。
その結果, オラクルの平均値が良くても, 小さな埋め込みを微調整すると, 元のベースラインに比べて大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Contextual Embeddings have yielded state-of-the-art results in various natural language processing tasks. However, these embeddings are constrained by models requiring large amounts of data and huge computing power. This is an issue for low-resource languages like Nepali as the amount of data available over the internet is not always sufficient for the models. This work has taken an incomplete BERT model with six attention heads pretrained on Nepali language and finetuned it on previously unseen data. The obtained results from intrinsic and extrinsic evaluations have been compared to the results drawn from the original model baseline and a complete BERT model pretrained on Nepali language as the oracle. The results demonstrate that even though the oracle is better on average, finetuning the small embeddings drastically improves results compared to the original baseline.
- Abstract(参考訳): 文脈埋め込みは様々な自然言語処理タスクにおいて最先端の結果をもたらしている。
しかし、これらの埋め込みは大量のデータと巨大な計算能力を必要とするモデルによって制約されている。
これはネパールのような低リソース言語にとって問題であり、インターネット上で利用できるデータの量は必ずしもモデルに十分ではない。
この研究はネパール語で事前訓練された6つの注意点を持つ不完全なBERTモデルを採用し、これまで見つからなかったデータに基づいて微調整した。
内在的・外在的評価の結果は,ネパール語で事前学習した原モデルベースラインと完全なBERTモデルとを比較した。
その結果, オラクルの平均値が良くても, 小さな埋め込みを微調整すると, 元のベースラインに比べて大幅に改善することがわかった。
関連論文リスト
- Pre-training a Transformer-Based Generative Model Using a Small Sepedi Dataset [0.5530212768657544]
南アフリカのいくつかのリソースから得られたSepedi monolingual(SepMono)データセットと、ラジオニュースドメインからのSepedi Radio News(SepNews)データセットを使用します。
以上の結果から,非閉塞モデルの方が,検証損失とパープレキシティの測定において,オクルージョンベースモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-25T17:25:06Z) - Can Perplexity Predict Fine-Tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali [0.0]
サブワードが言語モデルの理解能力にどのように影響するかの研究はほとんどなく、少数の言語に限られている。
ネパールの比較的小さな言語モデルを事前訓練するために、6つの異なるトークン化スキームを使用し、下流のタスクを微調整するために学んだ表現を使用しました。
論文 参考訳(メタデータ) (2024-04-28T05:26:12Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。