論文の概要: Benchmarking quantized LLaMa-based models on the Brazilian Secondary
School Exam
- arxiv url: http://arxiv.org/abs/2309.12071v1
- Date: Thu, 21 Sep 2023 13:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 15:10:04.938116
- Title: Benchmarking quantized LLaMa-based models on the Brazilian Secondary
School Exam
- Title(参考訳): ブラジル中等教育試験における量子化LLaMaモデルの評価
- Authors: Matheus L. O. Santos and Cl\'audio E. C. Campelo
- Abstract要約: 7億LLaMAモデルと13億LLaMAモデルに基づく大規模言語モデルの性能評価を行った。
ENEM (Brazilian National secondary School Exam) から1,006質問を収録したデータベースを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although Large Language Models (LLMs) represent a revolution in the way we
interact with computers, allowing the construction of complex questions and the
ability to reason over a sequence of statements, their use is restricted due to
the need for dedicated hardware for execution. In this study, we evaluate the
performance of LLMs based on the 7 and 13 billion LLaMA models, subjected to a
quantization process and run on home hardware. The models considered were
Alpaca, Koala, and Vicuna. To evaluate the effectiveness of these models, we
developed a database containing 1,006 questions from the ENEM (Brazilian
National Secondary School Exam). Our analysis revealed that the best performing
models achieved an accuracy of approximately 46% for the original texts of the
Portuguese questions and 49% on their English translations. In addition, we
evaluated the computational efficiency of the models by measuring the time
required for execution. On average, the 7 and 13 billion LLMs took
approximately 20 and 50 seconds, respectively, to process the queries on a
machine equipped with an AMD Ryzen 5 3600x processor
- Abstract(参考訳): 大きな言語モデル(LLM)は、コンピュータとのインタラクションにおける革命であり、複雑な質問の構築と一連のステートメントの推論を可能にするが、実行に専用のハードウェアを必要とするため、その使用は制限されている。
本研究では、7億モデルと130億モデルに基づくllmの性能評価を行い、量子化処理を行い、ホームハードウェア上で動作させた。
検討されたモデルは、Alpaca、Koala、Vicunaである。
これらのモデルの有効性を評価するため,ENEM (Brazilian National secondary School Exam) から1,006質問を収録したデータベースを開発した。
分析の結果,ポルトガル語質問の原文の精度は約46%,英訳の精度は49%であった。
また,実行に要する時間を測定することにより,モデルの計算効率を評価した。
7億LLMと13億LLMはそれぞれ20秒と50秒かかり、AMD Ryzen 5 3600xプロセッサを搭載したマシン上でクエリを処理する。
関連論文リスト
- Tailored-LLaMA: Optimizing Few-Shot Learning in Pruned LLaMA Models with Task-Specific Prompts [0.86325068644655]
我々はタスク固有のデータセットを使用し、50億と40億のパラメータを持つ2つのプルーニングLLaMAモデルを微調整する。
本稿では,LLaMAモデルをタスク特異性と即効性という2つの制約の下で微調整する手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T22:34:27Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting [0.6675160100853794]
我々は,高度に構成された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。
GPT-4を用いたゼロショット予測とLLaVA(LLaVAとLLaVA-1.5)を用いて,マルチモーダル入力からなる質問に対する回答を生成する。
テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:11:47Z) - Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。
この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z) - LLaMA: Open and Efficient Foundation Language Models [62.94749698865241]
LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。
私たちは、何十兆ものトークンでモデルをトレーニングし、公開データセットのみを使用して最先端モデルをトレーニングすることが可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-27T17:11:15Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。