論文の概要: EXAONE 3.0 7.8B Instruction Tuned Language Model
- arxiv url: http://arxiv.org/abs/2408.03541v2
- Date: Thu, 8 Aug 2024 04:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 12:41:05.273592
- Title: EXAONE 3.0 7.8B Instruction Tuned Language Model
- Title(参考訳): EXAONE 3.0 7.8Bインストラクションチューニング言語モデル
- Authors: LG AI Research, :, Soyoung An, Kyunghoon Bae, Eunbi Choi, Stanley Jungkyu Choi, Yemuk Choi, Seokhee Hong, Yeonjung Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Euisoon Kim, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Moontae Lee, Seungjun Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Boseong Seo, Sihoon Yang, Heuiyeen Yeen, Kyungjae Yoo, Hyeongu Yun,
- Abstract要約: EXAONE 3.0命令調整言語モデルは、Large Language Models (LLMs) の最初のオープンモデルである。
EXAONE 3.0は、同じ大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。
比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般的なタスクや複雑な推論において魅力的な性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 41.95996640625627
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce EXAONE 3.0 instruction-tuned language model, the first open model in the family of Large Language Models (LLMs) developed by LG AI Research. Among different model sizes, we publicly release the 7.8B instruction-tuned model to promote open research and innovations. Through extensive evaluations across a wide range of public and in-house benchmarks, EXAONE 3.0 demonstrates highly competitive real-world performance with instruction-following capability against other state-of-the-art open models of similar size. Our comparative analysis shows that EXAONE 3.0 excels particularly in Korean, while achieving compelling performance across general tasks and complex reasoning. With its strong real-world effectiveness and bilingual proficiency, we hope that EXAONE keeps contributing to advancements in Expert AI. Our EXAONE 3.0 instruction-tuned model is available at https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct
- Abstract(参考訳): 本稿では,LG AI Research が開発したLarge Language Models (LLM) シリーズの最初のオープンモデルである EXAONE 3.0 命令調整言語モデルを紹介する。
様々なモデルサイズの中で、オープンな研究とイノベーションを促進するために、7.8Bの命令調整モデルを公開する。
EXAONE 3.0は、様々な公開および社内ベンチマークの広範な評価を通じて、同様の大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。
比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般タスクや複雑な推論において魅力的な性能を実現していることがわかった。
強力な実世界の有効性とバイリンガル能力によって、EXAONEがExpert AIの進歩に寄与し続けることを願っています。
私たちのEXAONE 3.0命令チューニングモデルはhttps://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instructで利用可能です。
関連論文リスト
- \llinstruct: An Instruction-tuned model for English Language Proficiency Assessments [6.307485015636125]
英語アセスメント(ELPA)のためのコンテンツを生成する8B命令調整モデルを提案する。
私たちの研究は、ELPAドメインで70K命令と説明のデータセットを作成することにあります。
これらのSFTモデルとSOTAモデルを比較するために、見知らぬ命令に対して人的評価を行う。
論文 参考訳(メタデータ) (2024-10-12T00:47:45Z) - Rethinking Optimization and Architecture for Tiny Language Models [39.892066839422796]
モバイルデバイスにおける言語モデルの適用は、計算とメモリコストに大きな課題に直面している。
本研究では,1Bパラメータを持つ小さな言語モデルに基づいて,各成分の効果を分析するための実験的な研究を慎重に設計する。
いくつかの設計公式は、特に小さな言語モデルに有効であることが実証的に証明されている。
論文 参考訳(メタデータ) (2024-02-05T07:59:38Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training
for Language Understanding and Generation [50.036392756981016]
GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。
ERNIE 3.0という名前の統一フレームワークが、大規模な知識強化モデルの事前トレーニングのために提案された。
ERNIE 3.0は様々なNLPタスクにおいて最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-23T17:35:48Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。