Fugu-MT 論文翻訳(概要): Nyonic Technical Report

論文の概要: Nyonic Technical Report

arxiv url: http://arxiv.org/abs/2404.15702v1
Date: Wed, 24 Apr 2024 07:38:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:49:56.995926
Title: Nyonic Technical Report
Title（参考訳）: Nyonic Technical Report
Authors: Junfeng Tian, Rui Wang, Cong Li, Yudong Zhou, Jun Liu, Jun Wang,
Abstract要約: Wonton 7Bモデルは、多言語および英語のベンチマークで競合性能を示した。モデルのアーキテクチャは、ロータリー位置埋め込み(Rotary Positional Embeddings)、QK-LayerNorm(QK-LayerNorm)、特別に製作された多言語トークンーザ(multilingual tokenizer)などの最先端技術で強化されている。
参考スコア（独自算出の注目度）: 20.826424998392696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This report details the development and key achievements of our latest language model designed for custom large language models. The advancements introduced include a novel Online Data Scheduler that supports flexible training data adjustments and curriculum learning. The model's architecture is fortified with state-of-the-art techniques such as Rotary Positional Embeddings, QK-LayerNorm, and a specially crafted multilingual tokenizer to enhance stability and performance. Moreover, our robust training framework incorporates advanced monitoring and rapid recovery features to ensure optimal efficiency. Our Wonton 7B model has demonstrated competitive performance on a range of multilingual and English benchmarks. Future developments will prioritize narrowing the performance gap with more extensively trained models, thereby enhancing the model's real-world efficacy and adaptability.GitHub: \url{https://github.com/nyonicai/nyonic-public}
Abstract（参考訳）: 本報告では,カスタムな大規模言語モデル用に設計された最新の言語モデルの開発と重要な成果について詳述する。導入された進歩には、フレキシブルなトレーニングデータ調整とカリキュラム学習をサポートする、新しいオンラインデータスケジューリングが含まれている。モデルのアーキテクチャには、ロータリー位置埋め込み(Rotary Positional Embeddings)、QK-LayerNorm(QK-LayerNorm)などの最先端技術と、安定性と性能を高めるために特別に製作された多言語トークンライザが組み込まれている。さらに、我々の堅牢なトレーニングフレームワークは、最適な効率を確保するために、高度なモニタリングと迅速なリカバリ機能を備えている。我々のWonton 7Bモデルは、多言語および英語のベンチマークで競合性能を示した。今後の開発は、より広範囲にトレーニングされたモデルによるパフォーマンスギャップの縮小を優先し、実際の有効性と適応性を高めるだろう。

関連論文リスト

High-Resource Translation:Turning Abundance into Accessibility [0.0]
本稿では,トランスファーラーニング技術を活用して,英語からテルグ語への翻訳モデルを構築するための新しいアプローチを提案する。このモデルは反復的バックトランスレーションを取り入れて合成並列データを生成し、トレーニングデータセットを効果的に強化し、モデルの翻訳能力を向上する。
論文参考訳（メタデータ） (2025-04-08T11:09:51Z)
Training Data for Large Language Model [2.1178416840822027]
ChatGPTは、事前学習コーパスのパラメータとスケールの点で、以前のモデルを上回った。 ChatGPTは、大量の高品質な人間注釈付きデータを微調整することで、革命的なパフォーマンス向上を実現した。本稿では,大規模言語モデルの事前学習と微調整の現状を概説する。
論文参考訳（メタデータ） (2024-11-12T11:09:58Z)
Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2024-10-29T01:12:50Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-11-14T00:43:33Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文参考訳（メタデータ） (2023-02-24T18:59:51Z)
Continual Knowledge Distillation for Neural Machine Translation [74.03622486218597]
並列コーパスは、データ著作権、データプライバシ、競争上の差別化の理由から、一般にはアクセスできない。本稿では,既存の翻訳モデルを利用して,関心の1つのモデルを改善するための連続的知識蒸留法を提案する。
論文参考訳（メタデータ） (2022-12-18T14:41:13Z)
Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文参考訳（メタデータ） (2022-11-09T15:07:06Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
ANNA: Enhanced Language Representation for Question Answering [5.713808202873983]
事前学習モデルでは,各アプローチが個別にパフォーマンスにどう影響するかを示し,そのアプローチが共同で検討されている。本稿では,事前学習タスクの拡張と,近隣のトークンにもっと参加して,事前学習言語モデリングのコンテキストの豊かさを把握できる新しい近隣認識機構を提案する。我々の最良のモデルは、SQuAD 1.1上で95.7% F1と90.6% EMの新たな最先端結果を実現し、RoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
論文参考訳（メタデータ） (2022-03-28T05:26:52Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。