Fugu-MT 論文翻訳(概要): German's Next Language Model

論文の概要: German's Next Language Model

arxiv url: http://arxiv.org/abs/2010.10906v4
Date: Thu, 3 Dec 2020 11:02:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 22:48:14.166178
Title: German's Next Language Model
Title（参考訳）: ドイツの次世代言語モデル
Authors: Branden Chan, Stefan Schweter, Timo M\"oller
Abstract要約: GBERT と GELECTRA をベースとした言語モデル GBERT と GELECTRA の作成に繋がる実験について述べる。入力トレーニングデータやモデルサイズ,WWMの存在によって,文書分類やエンティティ認識タスクの集合を通じて,SoTAのパフォーマンスを達成できたのです。
参考スコア（独自算出の注目度）: 0.8520624117635327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work we present the experiments which lead to the creation of our BERT and ELECTRA based German language models, GBERT and GELECTRA. By varying the input training data, model size, and the presence of Whole Word Masking (WWM) we were able to attain SoTA performance across a set of document classification and named entity recognition (NER) tasks for both models of base and large size. We adopt an evaluation driven approach in training these models and our results indicate that both adding more data and utilizing WWM improve model performance. By benchmarking against existing German models, we show that these models are the best German models to date. Our trained models will be made publicly available to the research community.
Abstract（参考訳）: 本稿では,GBERT と GELECTRA をベースとしたドイツ語モデル GBERT と GELECTRA の作成に繋がる実験について述べる。入力トレーニングデータ,モデルサイズ,およびWWM(Whole Word Masking)の存在によって,文書分類と名前付きエンティティ認識(NER)タスクをベースモデルと大規模モデルの両方で,SoTAのパフォーマンスを達成できた。我々は,これらのモデルのトレーニングに評価駆動アプローチを採用し,データの追加とWWMの利用がモデル性能を向上させることを示す。既存のドイツモデルと比較すると、これらのモデルがこれまでで最高のドイツモデルであることが分かる。トレーニングされたモデルは研究コミュニティに公開される予定だ。

関連論文リスト

GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文参考訳（メタデータ） (2025-01-02T03:17:51Z)
LLäMmlein: Compact and Competitive German-Only Language Models from Scratch [3.7160688974577156]
我々は、2つのドイツ専用デコーダモデル、LL"aMmlein 120Mと1Bを作成し、それらをスクラッチから透過的に公開し、トレーニングデータとともに、ドイツのNLP研究コミュニティが使用できるようにしました。モデルトレーニングには、広範なデータ前処理、カスタムなドイツのトークン化器の作成、トレーニング自体、および様々なベンチマークの最終モデルの評価など、いくつかの重要なステップが含まれていた。
論文参考訳（メタデータ） (2024-11-17T20:44:34Z)
Apple Intelligence Foundation Language Models [109.60033785567484]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文参考訳（メタデータ） (2024-07-29T18:38:49Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Confidence-based Ensembles of End-to-End Speech Recognition Models [71.65982591023581]
5つの単言語モデルの信頼に基づくアンサンブルは、専用言語識別ブロックを介してモデル選択を行うシステムより優れていることを示す。また、ベースモデルと適応モデルを組み合わせることで、オリジナルデータとターゲットデータの両方で強力な結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-27T23:13:43Z)
Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文参考訳（メタデータ） (2023-06-02T12:45:34Z)
DUMB: A Benchmark for Smart Evaluation of Dutch Models [23.811515104842826]
オランダのモデルベンチマークであるDUMBを紹介します。このベンチマークには、低、中、高リソースタスクのためのさまざまなデータセットが含まれています。 RER(Relative Error Reduction)は、言語モデルのDUMB性能を強力なベースラインと比較する。最高性能はDeBERTaV3(大型)、XLM-R(大型)、mDeBERTaV3(ベース)である。
論文参考訳（メタデータ） (2023-05-22T13:27:37Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)
Training dataset and dictionary sizes matter in BERT models: the case of Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文参考訳（メタデータ） (2021-12-20T14:26:40Z)
Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文参考訳（メタデータ） (2021-11-16T15:18:01Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。