Fugu-MT 論文翻訳(概要): RakutenAI-7B: Extending Large Language Models for Japanese

論文の概要: RakutenAI-7B: Extending Large Language Models for Japanese

arxiv url: http://arxiv.org/abs/2403.15484v1
Date: Thu, 21 Mar 2024 06:56:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 22:32:02.877018
Title: RakutenAI-7B: Extending Large Language Models for Japanese
Title（参考訳）: 楽天AI-7B:日本語用大規模言語モデルの拡張
Authors: Rakuten Group, Aaron Levine, Connie Huang, Chenguang Wang, Eduardo Batista, Ewa Szymanska, Hongyi Ding, Hou Wei Chou, Jean-François Pessiot, Johanes Effendi, Justin Chiu, Kai Torben Ohlhus, Karan Chopra, Keiji Shinzato, Koji Murakami, Lee Xiong, Lei Chen, Maki Kubota, Maksim Tkachenko, Miroku Lee, Naoki Takahashi, Prathyusha Jwalapuram, Ryutaro Tatsushima, Saurabh Jain, Sunil Kumar Yadav, Ting Cai, Wei-Te Chen, Yandi Xia, Yuki Nakayama, Yutaka Higashiyama,
Abstract要約: オープン 7B モデルのうち,日本語 LM Harness ベンチマークで最高の性能を発揮する,日本語指向の大規模言語モデルのスイートである RakutenAI-7B を紹介する。我々はApache 2.0ライセンスの下で,RakutenAI-7B-instructとRakutenAI-7B-chatの命令付きモデルとチャット型モデルをリリースする。
参考スコア（独自算出の注目度）: 13.477844239467277
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce RakutenAI-7B, a suite of Japanese-oriented large language models that achieve the best performance on the Japanese LM Harness benchmarks among the open 7B models. Along with the foundation model, we release instruction- and chat-tuned models, RakutenAI-7B-instruct and RakutenAI-7B-chat respectively, under the Apache 2.0 license.
Abstract（参考訳）: オープン 7B モデルのうち,日本語 LM Harness ベンチマークで最高の性能を発揮する,日本語指向の大規模言語モデルのスイートである RakutenAI-7B を紹介する。基礎モデルと合わせて,Apache 2.0ライセンスの下で,RakutenAI-7BインストラクタとRakutenAI-7B-chatをそれぞれ提供する。

関連論文リスト

Command A: An Enterprise-Ready Large Language Model [180.18356391290172]
コマンドAはエージェント最適化および多言語対応モデルである。クラス内で最高のRetrieval Augmented Generation機能を提供する。
論文参考訳（メタデータ） (2025-04-01T12:08:07Z)
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。 LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。 LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文参考訳（メタデータ） (2025-03-04T10:21:57Z)
OLMoE: Open Mixture-of-Experts Language Models [180.19698806071867]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文参考訳（メタデータ） (2024-09-03T17:08:20Z)
EXAONE 3.0 7.8B Instruction Tuned Language Model [41.95996640625627]
EXAONE 3.0命令調整言語モデルは、Large Language Models (LLMs) の最初のオープンモデルである。 EXAONE 3.0は、同じ大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般的なタスクや複雑な推論において魅力的な性能を実現していることがわかった。
論文参考訳（メタデータ） (2024-08-07T04:38:38Z)
Qwen2 Technical Report [141.0766756297144]
本稿では,我々の大規模言語モデルと大規模マルチモーダルモデルへの最新の追加であるQwen2シリーズを紹介する。 Qwen2は、前身のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを超え、プロプライエタリモデルと比較して競争力のある性能を示している。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
論文参考訳（メタデータ） (2024-07-15T12:35:42Z)
A Teacher Is Worth A Million Instructions [4.322454918650575]
提案手法を用いた微調整Mistral 7Bと2x7Bは、7Bおよび13B以上のパラメータを持つ最先端言語モデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-27T11:48:25Z)
Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People [68.59917533894608]
我々は6つの最も広く話されている言語にまたがる医療用LLMの開発を目指しており、世界人口は610億人である。この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2024-03-06T11:56:02Z)
Breeze-7B Technical Report [16.765359642022272]
Breeze-7BはMistral-7Bをベースにしたオープンソースの言語モデルである。本稿では,Breeze-7Bモデルの事前訓練,微調整,評価段階について概説する。
論文参考訳（メタデータ） (2024-03-05T07:08:06Z)
Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文参考訳（メタデータ） (2023-10-10T17:54:58Z)
Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。 Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文参考訳（メタデータ） (2023-09-19T04:13:22Z)
From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models [6.520584613661788]
既存のデータセットを拡張・フィルタリングすることで,日本語の命令データセットを構築する。日本語と英語の両方の既存モデルでローランド適応(LoRA)チューニングを行う。
論文参考訳（メタデータ） (2023-09-07T00:14:37Z)
LLaMA: Open and Efficient Foundation Language Models [62.94749698865241]
LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。私たちは、何十兆ものトークンでモデルをトレーニングし、公開データセットのみを使用して最先端モデルをトレーニングすることが可能であることを示しています。
論文参考訳（メタデータ） (2023-02-27T17:11:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。