論文の概要: Mercury: Ultra-Fast Language Models Based on Diffusion
- arxiv url: http://arxiv.org/abs/2506.17298v1
- Date: Tue, 17 Jun 2025 17:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.322789
- Title: Mercury: Ultra-Fast Language Models Based on Diffusion
- Title(参考訳): Mercury: 拡散に基づく超高速言語モデル
- Authors: Inception Labs, Samar Khanna, Siddhant Kharbanda, Shufan Li, Harshit Varma, Eric Wang, Sawyer Birnbaum, Ziyang Luo, Yanis Miraoui, Akash Palrecha, Stefano Ermon, Aditya Grover, Volodymyr Kuleshov,
- Abstract要約: 拡散に基づく新しい商用大規模言語モデル(LLM)であるMercuryを提示する。
Mercury CoderにはMiniとSmallの2つのサイズがある。
独立した評価に基づいて、マーキュリー・コーダ・ミニとマーキュリー・コーダ・スモールは、それぞれ1109トークン/秒と737トークン/秒の最先端のスループットを達成した。
- 参考スコア(独自算出の注目度): 58.52391675075641
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Mercury, a new generation of commercial-scale large language models (LLMs) based on diffusion. These models are parameterized via the Transformer architecture and trained to predict multiple tokens in parallel. In this report, we detail Mercury Coder, our first set of diffusion LLMs designed for coding applications. Currently, Mercury Coder comes in two sizes: Mini and Small. These models set a new state-of-the-art on the speed-quality frontier. Based on independent evaluations conducted by Artificial Analysis, Mercury Coder Mini and Mercury Coder Small achieve state-of-the-art throughputs of 1109 tokens/sec and 737 tokens/sec, respectively, on NVIDIA H100 GPUs and outperform speed-optimized frontier models by up to 10x on average while maintaining comparable quality. We discuss additional results on a variety of code benchmarks spanning multiple languages and use-cases as well as real-world validation by developers on Copilot Arena, where the model currently ranks second on quality and is the fastest model overall. We also release a public API at https://platform.inceptionlabs.ai/ and free playground at https://chat.inceptionlabs.ai
- Abstract(参考訳): 拡散に基づく新しい商用大規模言語モデル(LLM)であるMercuryを提示する。
これらのモデルはTransformerアーキテクチャを介してパラメータ化され、複数のトークンを並列に予測するように訓練される。
本稿では、プログラミングアプリケーション用に設計された最初の拡散LDMであるMercury Coderについて詳述する。
現在、Mercury CoderにはMiniとSmallの2つのサイズがある。
これらのモデルは、スピード・クオリティ・フロンティアに新たな最先端技術を打ち立てた。
Artificial Analysisによる独立した評価に基づいて、Mercury Coder MiniとMercury Coder Smallは、NVIDIA H100 GPUと速度最適化フロンティアモデルでそれぞれ1109トークン/秒と737トークン/秒の最先端スループットを、同等の品質を維持しながら平均10倍の性能で達成している。
複数の言語やユースケースにまたがるさまざまなコードベンチマークと、Copilot Arenaの開発者による実際の検証に関するさらなる結果について議論する。
また、https://platform.inceptionlabs.ai/で公開APIをリリースし、https://chat.inceptionlabs.aiでフリープレイスを公開しています。
関連論文リスト
- Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation [0.0]
Tiny QA Benchmark++(TQB++)は、大規模言語モデル(LLM)パイプラインに、最小限のコストで数秒で実行されるユニットテストスタイルのセーフティネットデータセットを提供するように設計されている。
TQB++は52石のイングランドのゴールドセットと、プロバイダに依存しないLiteLLM上に構築された小さな合成データジェネレータのpypiパッケージを結合している。
各データセットには、OpenAI-Evals、LangChain、標準CIツール用のCroissantメタデータとプラグイン・アンド・プレイファイルが同梱されている。
論文 参考訳(メタデータ) (2025-05-17T15:40:03Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Jasper and Stella: distillation of SOTA embedding models [8.708650717134008]
そこで本研究では,より小規模な学生埋め込みモデルにより,複数の教師埋め込みモデルを蒸留できる新しい多段階蒸留フレームワークを提案する。
我々は,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。
私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、Massive Text Embedding Benchmarkのリーダーボードで3位を獲得しました。
論文 参考訳(メタデータ) (2024-12-26T04:05:28Z) - Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文 参考訳(メタデータ) (2024-03-05T17:56:27Z) - StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - SantaCoder: don't reach for the stars! [27.050410834027705]
BigCodeプロジェクトは、コードのための大規模言語モデルの責任ある開発に取り組んでいる、オープン・サイエンティフィックなコラボレーションである。
The StackのJava,JavaScript,Pythonサブセットで1.1Bパラメータモデルをトレーニングし,MultiPL-Eのテキスト・トゥ・コードベンチマークで評価する。
私たちの最良のモデルは、MultiPL-EのJava、JavaScript、Pythonの各部分の左から右への生成とインフィルで、以前のオープンソース多言語コード生成モデルより優れています。
論文 参考訳(メタデータ) (2023-01-09T10:52:35Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。