論文の概要: Reactor Mk.1 performances: MMLU, HumanEval and BBH test results
- arxiv url: http://arxiv.org/abs/2406.10515v1
- Date: Sat, 15 Jun 2024 05:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:02:58.981737
- Title: Reactor Mk.1 performances: MMLU, HumanEval and BBH test results
- Title(参考訳): 原子炉Mk.1の性能:MMLU、HumanEval、BBHテスト結果
- Authors: TJ Dunham, Henry Syahputra,
- Abstract要約: Reactor Mk.1はGPT-4o、Claude Opus、Llama 3といったモデルよりも優れており、MMLUデータセットで92%、HumanEvalデータセットで91%、BBHデータセットで88%のスコアを得た。
困難な仕事の管理と推論の両方に優れており、現在の最先端のAI技術において、目立ったAIソリューションとして確立されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper presents the performance results of Reactor Mk.1, ARCs flagship large language model, through a benchmarking process analysis. The model utilizes the Lychee AI engine and possesses less than 100 billion parameters, resulting in a combination of efficiency and potency. The Reactor Mk.1 outperformed models such as GPT-4o, Claude Opus, and Llama 3, with achieved scores of 92% on the MMLU dataset, 91% on HumanEval dataset, and 88% on BBH dataset. It excels in both managing difficult jobs and reasoning, establishing as a prominent AI solution in the present cutting-edge AI technology.
- Abstract(参考訳): 本稿では,ARCのフラッグシップとなる大規模言語モデルであるReactor Mk.1のベンチマークプロセス解析による性能評価について述べる。
このモデルはLychee AIエンジンを使用し、1000億以上のパラメータを持ち、効率性と有効性の組み合わせをもたらす。
Reactor Mk.1はGPT-4o、Claude Opus、Llama 3といったモデルよりも優れており、MMLUデータセットで92%、HumanEvalデータセットで91%、BBHデータセットで88%のスコアを得た。
困難な仕事の管理と推論の両方に優れており、現在の最先端のAI技術において、目立ったAIソリューションとして確立されている。
関連論文リスト
- Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data [0.0]
本研究の目的は、新型コロナウイルスによる死亡率の予測において、古典的機械学習モデル(CML)と大規模言語モデル(LLM)のパフォーマンスを評価し、比較することである。
我々は4つの病院で収集された9,134人の新型コロナウイルス患者のデータを分析した。
論文 参考訳(メタデータ) (2024-09-02T14:51:12Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - An Empirical Study of Large-Scale Data-Driven Full Waveform Inversion [33.19446101601603]
本稿では,ビッグデータがディープラーニングモデルに与える影響について検討し,FWI(Full Waveform Inversion)問題の解法を提案する。
我々は470万組の地震データと速度マップを含むOpenFWIの10個の2次元サブセットの組み合わせでFWIモデルを訓練し、評価する。
実験の結果,MAEは平均13.03%,MSEは7.19%,SSIMは1.87%の改善が得られた。
論文 参考訳(メタデータ) (2023-07-28T08:32:11Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Learning brain MRI quality control: a multi-factorial generalization
problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。
分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。
我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文 参考訳(メタデータ) (2022-05-31T15:46:44Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Residual Energy-Based Models for End-to-End Speech Recognition [26.852537542649866]
自己回帰型ASRモデルを補完するために残留エネルギーベースモデル(R-EBM)を提案する。
100hr LibriSpeechデータセットの実験では、R-EBMはワードエラー率(WER)を8.2%/6.7%削減できる。
自己教師付き学習(wav2vec 2.0)を用いた最先端モデルでは、R-EBMはWERと信頼性推定性能の両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-25T22:08:00Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。