論文の概要: RakutenAI-7B: Extending Large Language Models for Japanese
- arxiv url: http://arxiv.org/abs/2403.15484v1
- Date: Thu, 21 Mar 2024 06:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:32:02.877018
- Title: RakutenAI-7B: Extending Large Language Models for Japanese
- Title(参考訳): 楽天AI-7B:日本語用大規模言語モデルの拡張
- Authors: Rakuten Group, Aaron Levine, Connie Huang, Chenguang Wang, Eduardo Batista, Ewa Szymanska, Hongyi Ding, Hou Wei Chou, Jean-François Pessiot, Johanes Effendi, Justin Chiu, Kai Torben Ohlhus, Karan Chopra, Keiji Shinzato, Koji Murakami, Lee Xiong, Lei Chen, Maki Kubota, Maksim Tkachenko, Miroku Lee, Naoki Takahashi, Prathyusha Jwalapuram, Ryutaro Tatsushima, Saurabh Jain, Sunil Kumar Yadav, Ting Cai, Wei-Te Chen, Yandi Xia, Yuki Nakayama, Yutaka Higashiyama,
- Abstract要約: オープン 7B モデルのうち,日本語 LM Harness ベンチマークで最高の性能を発揮する,日本語指向の大規模言語モデルのスイートである RakutenAI-7B を紹介する。
我々はApache 2.0ライセンスの下で,RakutenAI-7B-instructとRakutenAI-7B-chatの命令付きモデルとチャット型モデルをリリースする。
- 参考スコア(独自算出の注目度): 13.477844239467277
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce RakutenAI-7B, a suite of Japanese-oriented large language models that achieve the best performance on the Japanese LM Harness benchmarks among the open 7B models. Along with the foundation model, we release instruction- and chat-tuned models, RakutenAI-7B-instruct and RakutenAI-7B-chat respectively, under the Apache 2.0 license.
- Abstract(参考訳): オープン 7B モデルのうち,日本語 LM Harness ベンチマークで最高の性能を発揮する,日本語指向の大規模言語モデルのスイートである RakutenAI-7B を紹介する。
基礎モデルと合わせて,Apache 2.0ライセンスの下で,RakutenAI-7BインストラクタとRakutenAI-7B-chatをそれぞれ提供する。
関連論文リスト
- Apollo: An Lightweight Multilingual Medical LLM towards Democratizing
Medical AI to 6B People [74.95250992640979]
我々は6つの最も広く話されている言語にまたがる医療用LLMの開発を目指しており、世界人口は610億人である。
この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。
トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2024-03-06T11:56:02Z) - Breeze-7B Technical Report [16.765359642022272]
Breeze-7BはMistral-7Bをベースにしたオープンソースの言語モデルである。
本稿では,Breeze-7Bモデルの事前訓練,微調整,評価段階について概説する。
論文 参考訳(メタデータ) (2024-03-05T07:08:06Z) - PALO: A Polyglot Large Multimodal Model for 5B People [23.839200109033538]
より包括的な視覚言語モデル(VLM)を追求するために,PALOと呼ばれる大規模マルチモーダルモデルを導入する。
PALOは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む10の主要言語で視覚的推論機能を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:59:58Z) - JaColBERT and Hard Negatives, Towards Better Japanese-First Embeddings
for Retrieval: Early Technical Report [3.185711963693986]
日本語では、最も優れたディープラーニングに基づく検索手法は多言語密着型埋め込みに依存している。
そこで本研究では,(1)日本語MMARCOデータセットの高負拡張版と(2)日本語向けColBERTモデルに基づく文書検索モデルJaColBERTを紹介する。
論文 参考訳(メタデータ) (2023-12-26T18:07:05Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (2023-10-10T17:54:58Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - From Base to Conversational: Japanese Instruction Dataset and Tuning
Large Language Models [6.520584613661788]
既存のデータセットを拡張・フィルタリングすることで,日本語の命令データセットを構築する。
日本語と英語の両方の既存モデルでローランド適応(LoRA)チューニングを行う。
論文 参考訳(メタデータ) (2023-09-07T00:14:37Z) - LLaMA: Open and Efficient Foundation Language Models [62.94749698865241]
LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。
私たちは、何十兆ものトークンでモデルをトレーニングし、公開データセットのみを使用して最先端モデルをトレーニングすることが可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-27T17:11:15Z) - M6: A Chinese Multimodal Pretrainer [66.51132343067458]
1.9TB以上の画像と292GBのテキストからなる中国語のマルチモーダルプリトレーニングのための最大のデータセットを構築します。
我々はマルチモーダルなマルチモーダルなマルチタスク・メガトランスを参考に,M6と呼ばれるクロスモーダルな事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-01T07:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。