論文の概要: Evaluating Contextualized Language Models for Hungarian
- arxiv url: http://arxiv.org/abs/2102.10848v1
- Date: Mon, 22 Feb 2021 09:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:04:16.437511
- Title: Evaluating Contextualized Language Models for Hungarian
- Title(参考訳): ハンガリー語の文脈言語モデルの評価
- Authors: Judit \'Acs and D\'aniel L\'evai and D\'avid M\'ark Nemeskey and
Andr\'as Kornai
- Abstract要約: ハンガリーのモデルhubertと多言語bertモデルを含む4つの多言語モデルを比較した。
huBERTは、他のモデルよりも、特にグローバルな最適化に近い大きなマージンで、うまく機能していることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an extended comparison of contextualized language models for
Hungarian. We compare huBERT, a Hungarian model against 4 multilingual models
including the multilingual BERT model. We evaluate these models through three
tasks, morphological probing, POS tagging and NER. We find that huBERT works
better than the other models, often by a large margin, particularly near the
global optimum (typically at the middle layers). We also find that huBERT tends
to generate fewer subwords for one word and that using the last subword for
token-level tasks is generally a better choice than using the first one.
- Abstract(参考訳): 本稿では,ハンガリー語の文脈化言語モデルの拡張比較について述べる。
ハンガリーのモデルhubertと多言語bertモデルを含む4つの多言語モデルを比較した。
これらのモデルを形態学的プロービング、POSタグ付け、NERの3つのタスクで評価します。
huBERTは他のモデルよりも、特にグローバルな最適(通常は中間層)に近い大きなマージンで、うまく機能することがわかった。
また、huBERTは1つの単語のサブワードを少なくする傾向があり、トークンレベルのタスクに最後のサブワードを使用することは、一般的に最初の単語を使用するよりも良い選択です。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - ur-iw-hnt at GermEval 2021: An Ensembling Strategy with Multiple BERT
Models [5.952826555378035]
複数の BERT モデルで過半数 (ハード) の投票で, アンサンブル戦略を用いて3回実施した。
すべてのアンサンブルモデルはシングルモデルより優れており、BERTweetはサブタスクごとに個々のモデルの勝者である。
Twitterベースのモデルは、 GermanBERTモデルよりもパフォーマンスが良く、マルチ言語モデルはより悪いが、マージンは小さい。
論文 参考訳(メタデータ) (2021-10-05T13:48:20Z) - gaBERT -- an Irish Language Model [7.834915319072005]
gaBERT はアイルランド語の単言語 BERT モデルである。
フィルタリング基準,語彙サイズ,サブワードトークン化モデルの選択が下流のパフォーマンスにどのように影響するかを示す。
論文 参考訳(メタデータ) (2021-07-27T16:38:53Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文 参考訳(メタデータ) (2020-12-03T17:45:03Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - KR-BERT: A Small-Scale Korean-Specific Language Model [0.0]
韓国固有のKR-BERTモデルを,より小さな語彙とデータセットを用いて訓練した。
本モデルでは, コーパスを約1/10のサイズのコーパスを用いて, 既存の事前学習モデルと比較し, 比較検討を行った。
論文 参考訳(メタデータ) (2020-08-10T09:26:00Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。