論文の概要: Mistral 7B
- arxiv url: http://arxiv.org/abs/2310.06825v1
- Date: Tue, 10 Oct 2023 17:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:15:21.321884
- Title: Mistral 7B
- Title(参考訳): ミストラル7B
- Authors: Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford,
Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel,
Guillaume Lample, Lucile Saulnier, L\'elio Renard Lavaud, Marie-Anne Lachaux,
Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timoth\'ee Lacroix,
William El Sayed
- Abstract要約: Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
- 参考スコア(独自算出の注目度): 62.17530433867458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Mistral 7B v0.1, a 7-billion-parameter language model engineered
for superior performance and efficiency. Mistral 7B outperforms Llama 2 13B
across all evaluated benchmarks, and Llama 1 34B in reasoning, mathematics, and
code generation. Our model leverages grouped-query attention (GQA) for faster
inference, coupled with sliding window attention (SWA) to effectively handle
sequences of arbitrary length with a reduced inference cost. We also provide a
model fine-tuned to follow instructions, Mistral 7B -- Instruct, that surpasses
the Llama 2 13B -- Chat model both on human and automated benchmarks. Our
models are released under the Apache 2.0 license.
- Abstract(参考訳): 性能と効率性に優れた7ビリオンパラメータ言語モデルであるMistral 7B v0.1を紹介する。
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
我々のモデルは高速な推論のためにグループクエリアテンション(GQA)を利用し、スライディングウィンドウアテンション(SWA)と組み合わせて、任意の長さのシーケンスを推論コストの削減で効果的に処理する。
また、命令に従うように微調整されたモデル、Mistral 7B -- Instruct -- Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供しています。
私たちのモデルはApache 2.0ライセンスでリリースされています。
関連論文リスト
- Stance Detection on Social Media with Fine-Tuned Large Language Models [5.690169540096668]
自然言語処理における重要なタスクであるスタンス検出は、テキスト解析に基づいて著者の視点を決定する。
本研究は,早期の機械学習アプローチから画期的なBERTモデルへの移行による姿勢検出手法の進化を評価する。
総合的な比較を行うため、ゼロショットおよび少数ショット学習シナリオにおいて、これらのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-04-18T13:25:29Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - ORPO: Monolithic Preference Optimization without Reference Model [9.53888551630878]
選好アライメントの文脈において,教師付き微調整が果たす重要な役割について検討した。
モデルフリーなモノリシックオッズ比最適化アルゴリズムORPOを導入し、追加の選好アライメントフェーズの必要性を排除した。
具体的には、Phi-2 (2.7B)、Llama-2 (7B)、Mistral (7B)、ORPO on the UltraFeedbackは、7Bと13B以上のパラメータを持つ最先端言語モデルの性能を上回っている。
論文 参考訳(メタデータ) (2024-03-12T14:34:08Z) - Large Malaysian Language Model Based on Mistral for Enhanced Local
Language Understanding [0.0]
大規模言語モデルであるMistral 7Bの事前学習の進歩を示す。
コンテクスト長4096と32768のトークンを持つモデルをリリースし、16384のコンテクスト長調整モデルでさらなる性能向上を図る。
マレーシアのミストラルがタタバハサ(マレー文法)テストセットで優れていることを示す説得力のある結果を示す。
論文 参考訳(メタデータ) (2024-01-24T16:21:28Z) - Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。
提案手法は,小型のLMをチューニングし,未調整のLMと小型のLMの予測の差を適用し,元の予測をシフトさせる。
TruthfulQAでは、プロキシチューニングされたモデルは直接チューニングされたモデルよりも真実である。
論文 参考訳(メタデータ) (2024-01-16T18:49:55Z) - Fine-tuning Large Language Models for Adaptive Machine Translation [2.648836772989769]
適応機械翻訳のための汎用大言語モデル(LLM)の微調整
その結果、ゼロショットとワンショットの両方の翻訳シナリオの品質改善が示された。
実験により、微調整はMistralの文脈内学習能力を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-20T03:21:48Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - LLaMA: Open and Efficient Foundation Language Models [62.94749698865241]
LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。
私たちは、何十兆ものトークンでモデルをトレーニングし、公開データセットのみを使用して最先端モデルをトレーニングすることが可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-27T17:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。