Fugu-MT 論文翻訳(概要): Reactor Mk.1 performances: MMLU, HumanEval and BBH test results

論文の概要: Reactor Mk.1 performances: MMLU, HumanEval and BBH test results

arxiv url: http://arxiv.org/abs/2406.10515v1
Date: Sat, 15 Jun 2024 05:52:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 00:02:58.981737
Title: Reactor Mk.1 performances: MMLU, HumanEval and BBH test results
Title（参考訳）: 原子炉Mk.1の性能:MMLU、HumanEval、BBHテスト結果
Authors: TJ Dunham, Henry Syahputra,
Abstract要約: Reactor Mk.1はGPT-4o、Claude Opus、Llama 3といったモデルよりも優れており、MMLUデータセットで92%、HumanEvalデータセットで91%、BBHデータセットで88%のスコアを得た。困難な仕事の管理と推論の両方に優れており、現在の最先端のAI技術において、目立ったAIソリューションとして確立されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The paper presents the performance results of Reactor Mk.1, ARCs flagship large language model, through a benchmarking process analysis. The model utilizes the Lychee AI engine and possesses less than 100 billion parameters, resulting in a combination of efficiency and potency. The Reactor Mk.1 outperformed models such as GPT-4o, Claude Opus, and Llama 3, with achieved scores of 92% on the MMLU dataset, 91% on HumanEval dataset, and 88% on BBH dataset. It excels in both managing difficult jobs and reasoning, establishing as a prominent AI solution in the present cutting-edge AI technology.
Abstract（参考訳）: 本稿では,ARCのフラッグシップとなる大規模言語モデルであるReactor Mk.1のベンチマークプロセス解析による性能評価について述べる。このモデルはLychee AIエンジンを使用し、1000億以上のパラメータを持ち、効率性と有効性の組み合わせをもたらす。 Reactor Mk.1はGPT-4o、Claude Opus、Llama 3といったモデルよりも優れており、MMLUデータセットで92%、HumanEvalデータセットで91%、BBHデータセットで88%のスコアを得た。困難な仕事の管理と推論の両方に優れており、現在の最先端のAI技術において、目立ったAIソリューションとして確立されている。

関連論文リスト

Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。 DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文参考訳（メタデータ） (2025-05-28T12:56:04Z)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models [1.96238419451815]
大規模言語モデル(LLM)は、プログラミングや数学的推論タスクにおいて強力な能力を示しているが、高品質な訓練データに制限されている。我々は,高品質なトレーニングデータを確保するために,地道プルースプルーニングを用いて,自身の推論トレースを反復的に微調整するスケーラブルなフレームワークを導入する。 GSM8Kでは、Gemma2-2Bは57.6%(41.9%から)のPass@1、Gemma2-9Bは82%、LLaMA-3.1-70B、LLaMA-3.1-70Bは91%、GPT-4oを超える。
論文参考訳（メタデータ） (2025-04-25T06:48:55Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [5.585222292493927]
提案するUnion-of-Experts(UoE)は,変圧器を等価な専門家グループに分解し,入力データとエキスパートを選択的にルーティングする。実験により、UoEモデルはフルアテンション、最先端のMoE、効率的なトランスフォーマーを上回ることが示されている。
論文参考訳（メタデータ） (2025-03-04T11:01:25Z)
Merging synthetic and real embryo data for advanced AI predictions [69.07284335967019]
我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文参考訳（メタデータ） (2024-12-02T08:24:49Z)
Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data [0.0]
本研究の目的は、新型コロナウイルスによる死亡率の予測において、古典的機械学習モデル(CML)と大規模言語モデル(LLM)のパフォーマンスを評価し、比較することである。我々は4つの病院で収集された9,134人の新型コロナウイルス患者のデータを分析した。
論文参考訳（メタデータ） (2024-09-02T14:51:12Z)
Retrosynthesis prediction enhanced by in-silico reaction data augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。 3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-31T07:40:37Z)
An Empirical Study of Large-Scale Data-Driven Full Waveform Inversion [33.19446101601603]
本稿では,ビッグデータがディープラーニングモデルに与える影響について検討し,FWI(Full Waveform Inversion)問題の解法を提案する。我々は470万組の地震データと速度マップを含むOpenFWIの10個の2次元サブセットの組み合わせでFWIモデルを訓練し、評価する。実験の結果,MAEは平均13.03%,MSEは7.19%,SSIMは1.87%の改善が得られた。
論文参考訳（メタデータ） (2023-07-28T08:32:11Z)
MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。 SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文参考訳（メタデータ） (2023-05-30T13:07:33Z)
Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文参考訳（メタデータ） (2022-06-15T20:44:23Z)
Learning brain MRI quality control: a multi-factorial generalization problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文参考訳（メタデータ） (2022-05-31T15:46:44Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Residual Energy-Based Models for End-to-End Speech Recognition [26.852537542649866]
自己回帰型ASRモデルを補完するために残留エネルギーベースモデル(R-EBM)を提案する。 100hr LibriSpeechデータセットの実験では、R-EBMはワードエラー率(WER)を8.2%/6.7%削減できる。自己教師付き学習(wav2vec 2.0)を用いた最先端モデルでは、R-EBMはWERと信頼性推定性能の両方を大幅に改善する。
論文参考訳（メタデータ） (2021-03-25T22:08:00Z)
DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文参考訳（メタデータ） (2020-06-05T19:54:34Z)
AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文参考訳（メタデータ） (2020-04-30T11:08:49Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。