論文の概要: React-ing to Grace Hopper 200: Five Open-Weights Coding Models, One React Native App, One GH200, One Weekend
- arxiv url: http://arxiv.org/abs/2604.17187v1
- Date: Sun, 19 Apr 2026 01:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.379207
- Title: React-ing to Grace Hopper 200: Five Open-Weights Coding Models, One React Native App, One GH200, One Weekend
- Title(参考訳): Reacting to Grace Hopper 200: 5つのオープンウェイトコーディングモデル、1つのReactネイティブアプリ、1つのGH200、1週間
- Authors: Alex Potanin,
- Abstract要約: 我々は、NVIDIA GH200 576 GBハードウェア上の単一のReact Nativeアプリケーション生成タスクにおいて、最先端のオープンウェイトコーディング言語モデルとして、Kim-K2.5(Q3およびQ4量子化)、GLM-5.1、Qwen3-Coder-480B、DeepSeek-V3.2の5つを評価した。
SWE-Benchランキングはタスク性能を予測できない。
- 参考スコア(独自算出の注目度): 0.40611352512781873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate five state-of-the-art open-weights coding language models -- Kimi-K2.5 (at Q3 and Q4 quantizations), GLM-5.1, Qwen3-Coder-480B, and DeepSeek-V3.2 -- on a single multi-file React Native application generation task on NVIDIA GH200 576 GB hardware. The task specifies authentication, per-user per-day counting, and web compatibility, and is evaluated on whether the generated project runs out-of-the-box and on feature-level correctness. We find that SWE-Bench rankings do not predict task performance: Kimi-K2.5 at aggressive 3-bit quantization (UD-Q3_K_XL, 480 GB) produces the most complete and specification-compliant output, outranking models with substantially higher SWE-Bench Pro scores. We document three novel deployment findings: (1) default temperature=0 in coding tools causes sampling hangs with reasoning-model architectures, (2) reasoning-model thinking traces can leak through integration tools' file-path parsers, and (3) web-platform adaptation of native-mobile APIs is a universal training-data gap across every model tested. We also map the hardware-tier structure of April 2026 open-weights coding models, identifying two architectural schools and showing that the efficiency school (10-15 B active parameters) delivers equivalent SWE-Bench results at roughly 1/7th the hardware cost of the scale school (32-40 B active parameters).
- Abstract(参考訳): 我々は、NVIDIA GH200 576 GBハードウェア上の単一のマルチファイルReact Nativeアプリケーション生成タスクにおいて、最先端のオープンウェイトコーディング言語モデルであるKim-K2.5(Q3およびQ4量子化)、GLM-5.1、Qwen3-Coder-480B、DeepSeek-V3.2の5つを評価した。
このタスクは、ユーザ毎の認証、ユーザ毎のカウント、Web互換性を規定し、生成したプロジェクトがアウト・オブ・ザ・ボックスと機能レベルの正確性に基づいて評価される。
積極的3ビット量子化(UD-Q3_K_XL, 480 GB)のKim-K2.5は、SWE-Bench Proスコアがかなり高いモデルよりも、最も完全で仕様に準拠した出力を生成する。
1)コーディングツールのデフォルト温度=0は、推論モデルアーキテクチャによるサンプリングハングを引き起こし、(2)推論モデル思考トレースは、統合ツールのファイルパスパーサを通じてリークし、(3)ネイティブモバイルAPIのWebプラットフォーム適応は、テストされた各モデル間で共通のトレーニングデータギャップである。
また、2026年4月のオープンウェイトコーディングモデルのハードウェア層構造をマッピングし、2つのアーキテクチャスクールを特定し、効率スクール(10~15Bのアクティブパラメータ)がスケールスクールのハードウェアコスト(32~40Bのアクティブパラメータ)の約1/7で同等のSWE-Bench結果を提供することを示した。
関連論文リスト
- Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model [0.0]
Hydraは、シングルビジョン言語モデル(VLM)からColBERTスタイルの遅延相互作用検索と自己回帰生成の両方を提供するデュアルヘッドアプローチである。
単一のLoRAアダプタは、検索用にのみ訓練され、推論時にトグルされる。
ViDoRe V1では、Hydra (4B) は単一のトレーニングランで制御された単一ヘッドベースラインの1パーセント以内である。
論文 参考訳(メタデータ) (2026-03-30T15:17:41Z) - David vs. Goliath: A comparative study of different-sized LLMs for code generation in the domain of automotive scenario generation [1.6752458252726459]
大きな言語モデル(LLM)を持つNL-to-Scenic生成は、少ないデータ、限られたメトリクスに悩まされる。
NL2Scenicは146組のNL/Scenicペアを持つオープンデータセットとフレームワークであり、難易度の高い30ケースのテスト分割とサンプルレトリバーを紹介する。
4つのプロプライエタリ(GPT-4o, GPT-5, Claude-Sonnet-4, Gemini-2.5-pro)と9つのオープンソースコードモデル(Qwen2.5Coder 0.5B-32B; CodeLlama 7B/13B/34B)を評価した。
論文 参考訳(メタデータ) (2025-10-15T21:37:02Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。
以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。
オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。
ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文 参考訳(メタデータ) (2024-12-19T17:56:09Z) - Qwen2.5-Coder Technical Report [105.131580912726]
先代のCodeQwen1.5から大幅にアップグレードされたQwen2.5-Coderシリーズを紹介します。
コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2024-09-18T17:57:57Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - GShard: Scaling Giant Models with Conditional Computation and Automatic
Sharding [46.74457030177477]
自動シャーディングを用いて,Sparsely-Gated Mixture-of-Expertsを用いた多言語ニューラルネットワーク翻訳トランスフォーマーモデルのスケールアップ方法を示す。
我々は,2048 TPU v3アクセラレーターを4日間で効率的に訓練し,100言語から英語への翻訳において,はるかに優れた品質を実現することを実証した。
論文 参考訳(メタデータ) (2020-06-30T10:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。