論文の概要: Breeze-7B Technical Report
- arxiv url: http://arxiv.org/abs/2403.02712v2
- Date: Wed, 3 Apr 2024 14:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 21:58:11.671314
- Title: Breeze-7B Technical Report
- Title(参考訳): Breeze-7B技術報告
- Authors: Chan-Jan Hsu, Chang-Le Liu, Feng-Ting Liao, Po-Chun Hsu, Yi-Chang Chen, Da-Shan Shiu,
- Abstract要約: Breeze-7BはMistral-7Bをベースにしたオープンソースの言語モデルである。
本稿では,Breeze-7Bモデルの事前訓練,微調整,評価段階について概説する。
- 参考スコア(独自算出の注目度): 16.765359642022272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Breeze-7B is an open-source language model based on Mistral-7B, designed to address the need for improved language comprehension and chatbot-oriented capabilities in Traditional Chinese. This technical report provides an overview of the additional pretraining, finetuning, and evaluation stages for the Breeze-7B model. The Breeze-7B family of base and chat models exhibits good performance on language comprehension and chatbot-oriented tasks, reaching the top in several benchmarks among models comparable in its complexity class.
- Abstract(参考訳): Breeze-7BはMistral-7Bをベースとしたオープンソースの言語モデルであり、伝統的な中国語における言語理解とチャットボット指向の機能の改善の必要性に対処するために設計された。
本稿では,Breeze-7Bモデルの事前訓練,微調整,評価段階について概説する。
ベースモデルとチャットモデルのBreeze-7Bファミリは、言語理解とチャットボット指向のタスクにおいて優れたパフォーマンスを示し、複雑性クラスに匹敵するモデルのいくつかのベンチマークでトップに達した。
関連論文リスト
- Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation [0.0]
Bielik 7B v0.1はポーランド語処理のための生成テキストモデルである。
革新的手法による言語モデル開発における重要な課題に対処する。
RAG ReaderタスクではMistral-7B-v0.1に比べて平均スコアが9パーセント向上した。
また、特にReasoning (6.15/10) と Role-playing (7.83/10) のカテゴリーにおいて、ポーランドのMT-Benchを抜粋している。
論文 参考訳(メタデータ) (2024-10-24T09:16:09Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - RakutenAI-7B: Extending Large Language Models for Japanese [13.477844239467277]
オープン 7B モデルのうち,日本語 LM Harness ベンチマークで最高の性能を発揮する,日本語指向の大規模言語モデルのスイートである RakutenAI-7B を紹介する。
我々はApache 2.0ライセンスの下で,RakutenAI-7B-instructとRakutenAI-7B-chatの命令付きモデルとチャット型モデルをリリースする。
論文 参考訳(メタデータ) (2024-03-21T06:56:07Z) - Komodo: A Linguistic Expedition into Indonesia's Regional Languages [0.3574867616159909]
コモド7Bはインドネシア語、英語、11の地域言語をシームレスに運営している。
Komodo-7B-Instructは様々なタスクや言語で最先端のパフォーマンスを達成することで際立っている。
言語モデルの発展への我々のコミットメントは、限られた言語資産を持つ人々のギャップを埋めることを目的として、十分なリソースを持つ言語を超えて拡張されます。
論文 参考訳(メタデータ) (2024-03-14T13:12:21Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Scribosermo: Fast Speech-to-Text models for German and other Languages [69.7571480246023]
本稿では,ドイツ語とスペイン語とフランス語の特殊特徴を持つ音声テキストモデルについて述べる。
それらは小さく、RaspberryPiのようなマイクロコントローラ上でリアルタイムで実行される。
事前トレーニングされた英語モデルを使用して、比較的小さなデータセットで、コンシューマグレードのハードウェアでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-15T10:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。