論文の概要: DNA 1.0 Technical Report
- arxiv url: http://arxiv.org/abs/2501.10648v1
- Date: Sat, 18 Jan 2025 03:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:24.492322
- Title: DNA 1.0 Technical Report
- Title(参考訳): DNA 1.0技術報告
- Authors: Jungyup Lee, Jemin Kim, Sang Park, SeungJae Lee,
- Abstract要約: DNA 1.0 8B Instructは、韓国語と英語のタスクに最適化された最先端のバイリンガル言語モデルである。
オープンモデルとして、DNA 1.0 8Bインストラクションはバイリンガル言語モデリングの大幅な進歩を示している。
- 参考スコア(独自算出の注目度): 5.237306053045462
- License:
- Abstract: In this report, we present DNA 1.0 8B Instruct, a state-of-the-art bilingual language model optimized for Korean and English language tasks. By applying continual pre-training (CPT) with high-quality Korean datasets to Llama 3.1 8B and subsequent supervised fine-tuning (SFT), we create an instruction-following model with enhanced Korean language capabilities. This model is then merged with Llama 3.1 8B Instruct via spherical linear interpolation (SLERP) and undergoes further optimization through direct preference optimization (DPO) and knowledge distillation (KD). DNA 1.0 8B Instruct achieves state-of-the-art results on Korean-specific tasks, including KMMLU (53.26%), KoBEST (83.40%), and BELEBELE (57.99%), while maintaining strong English capabilities on MMLU (66.64%), MMLU-Pro (43.05%) and GSM8K (80.52%). As an open model, DNA 1.0 8B Instruct represents a significant advancement in bilingual language modeling. As an open model, DNA 1.0 8B Instruct is freely available through https://huggingface.co/dnotitia/Llama-DNA-1.0-8B-Instruct . For commercial licensing inquiries or feedback, please contact us at https://www.dnotitia.com/contact/post-form
- Abstract(参考訳): 本稿では,韓国語と英語のタスクに最適化された最先端のバイリンガル言語モデルであるDNA 1.0 8Bインストラクションを提案する。
韓国の高品位データセットをLlama 3.1 8Bに適用した連続事前学習(CPT)と、それに続く教師付き微調整(SFT)により、韓国語能力の強化した命令追従モデルを作成する。
このモデルは球状線形補間(SLERP)によってLlama 3.1 8Bインストラクションとマージされ、直接選好最適化(DPO)と知識蒸留(KD)によってさらなる最適化が行われる。
DNA 1.0 8B 命令は、KMMLU (53.26%)、KoBEST (83.40%)、BELEBELE (57.99%)などの韓国固有のタスクに関する最先端の成果を達成し、MMLU (66.64%)、MMLU-Pro (43.05%)、GSM8K (80.52%)の英語能力を維持している。
オープンモデルとして、DNA 1.0 8Bインストラクションはバイリンガル言語モデリングの大幅な進歩を示している。
オープンモデルとして、DNA 1.0 8B Instructはhttps://huggingface.co/dnotitia/Llama-DNA-1.0-8B-Instruct を通じて自由に利用できる。
商用ライセンスの問い合わせやフィードバックについては、https://www.dnotitia.com/contact/post-form.comで連絡ください。
関連論文リスト
- DNAHLM -- DNA sequence and Human Language mixed large language Model [0.0]
本稿では、GPT-2ネットワーク上でトレーニングされた事前学習モデルについて紹介し、DNA配列と英文の組み合わせについて述べる。
次に、分類やその他の下流タスクをAlpacaフォーマット命令データに変換し、命令の微調整を行う。
このモデルはDNA関連ゼロショット予測およびマルチタスク応用においてその効果を実証している。
論文 参考訳(メタデータ) (2024-10-22T11:51:09Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-02-22T17:12:39Z) - M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale
Efficient Pretraining [26.262677587795242]
我々は、60億以上の画像テキストペアを持つ包括的バイリンガルデータセットBM-6Bを導入する。
このようなデータセットのスケールを扱うために,画像テキストのコントラッシブな損失計算のためのグループ集約手法を提案する。
BM-6B上での細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルの事前訓練を行う。
論文 参考訳(メタデータ) (2024-01-29T05:43:33Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual
Understanding With Multilingual Language Models [95.32691891392903]
本稿では,プロンプトチューニングを用いた様々なNLUタスクの言語間評価を行い,それを微調整と比較する。
その結果, アクシデントチューニングは, データセット間の微調整よりもはるかに優れた言語間移動を実現することがわかった。
論文 参考訳(メタデータ) (2022-10-22T05:48:02Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - KoreALBERT: Pretraining a Lite BERT Model for Korean Language
Understanding [6.414554168135807]
KoreALBERTは韓国語理解のための単言語ALBERTモデルである。
トレーニング済みのPruALBERTは、6つの異なるNLUタスクでBERTよりも優れています。
論文 参考訳(メタデータ) (2021-01-27T12:48:53Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Language-agnostic BERT Sentence Embedding [14.241717104817713]
単言語および言語間表現の学習に最適な方法を組み合わせることで,多言語文の埋め込みを学習する方法を検討する。
事前学習した多言語言語モデルを導入することで,性能向上に必要な並列トレーニングデータの量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2020-07-03T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。