論文の概要: Is there "Secret Sauce'' in Large Language Model Development?
- arxiv url: http://arxiv.org/abs/2602.07238v1
- Date: Fri, 06 Feb 2026 22:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.522603
- Title: Is there "Secret Sauce'' in Large Language Model Development?
- Title(参考訳): 大規模言語モデル開発において「秘密のソース」は存在するか?
- Authors: Matthias Mertens, Natalia Fischl-Lanzoni, Neil Thompson,
- Abstract要約: 2022年から2025年の間にリリースされた809モデルのトレーニングとベンチマークデータを用いて、リリース日と開発者の固定効果によるスケーリング法則の回帰を推定する。
開発者固有の効率上の利点の明確な証拠は見出されていますが、その重要性は、モデルがパフォーマンス分布のどこにあるかによって異なります。
- 参考スコア(独自算出の注目度): 1.6725669564247125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do leading LLM developers possess a proprietary ``secret sauce'', or is LLM performance driven by scaling up compute? Using training and benchmark data for 809 models released between 2022 and 2025, we estimate scaling-law regressions with release-date and developer fixed effects. We find clear evidence of developer-specific efficiency advantages, but their importance depends on where models lie in the performance distribution. At the frontier, 80-90% of performance differences are explained by higher training compute, implying that scale--not proprietary technology--drives frontier advances. Away from the frontier, however, proprietary techniques and shared algorithmic progress substantially reduce the compute required to reach fixed capability thresholds. Some companies can systematically produce smaller models more efficiently. Strikingly, we also find substantial variation of model efficiency within companies; a firm can train two models with more than 40x compute efficiency difference. We also discuss the implications for AI leadership and capability diffusion.
- Abstract(参考訳): LLMの開発者はプロプライエタリな‘シークレットソース’を持っているのか、あるいは計算のスケールアップによってLLMのパフォーマンスが向上しているのか?
2022年から2025年の間にリリースされた809モデルのトレーニングとベンチマークデータを用いて、リリース日と開発者の固定効果によるスケーリング法則回帰を推定する。
開発者固有の効率上の利点の明確な証拠は見出されていますが、その重要性は、モデルがパフォーマンス分布のどこにあるかによって異なります。
フロンティアでは、パフォーマンスの違いの80~90%は、より高いトレーニング計算によって説明され、スケール(プロプライエタリな技術ではない)がフロンティアの進歩を駆動していることを示唆している。
しかし、フロンティアとは別に、プロプライエタリな技術と共有アルゴリズムの進歩により、固定能力閾値に達するために必要な計算が大幅に削減される。
一部の企業はより効率的により小さなモデルを生産できる。
企業は、40倍以上の計算効率の差を持つ2つのモデルを訓練することができます。
また、AIリーダーシップと能力拡散の影響についても論じる。
関連論文リスト
- Revealing the Power of Post-Training for Small Language Models via Knowledge Distillation [43.68215777330875]
我々は,小型モデルの精度を効果的に向上する,系統的な後学習パイプラインを導入する。
結果として得られた命令調整モデルにより、最先端のパフォーマンスが達成される。
この研究は、Ascendエッジデバイス上で高性能言語モデルを開発するための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-30T16:40:55Z) - Meek Models Shall Inherit the Earth [1.9647223141071104]
過去10年で、少数の企業がAIシステムを驚くほどスケールアップし、AIモデルのパフォーマンスが不平等になった。
本稿では,AIモデルの能力の収束に繋がる,知能的な直観とは裏腹に,スケーリングへの回帰が減少すると論じる。
論文 参考訳(メタデータ) (2025-07-10T17:10:07Z) - Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - Streaming Looking Ahead with Token-level Self-reward [50.699168440048716]
本稿では,トークンレベルの自己回帰モデリング(TRM)機能を備えたポリシーモデルを提案する。
さらに,検索効率を向上し,並列化を向上するストリーミング・ルック・アヘッド (SLA) アルゴリズムを提案する。
SLAとDPOなどの強化微調整技術を組み合わせると、全体の勝利率は89.4%となる。
論文 参考訳(メタデータ) (2025-02-24T22:35:53Z) - Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。
EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。
異なるモデルファミリー間で顕著な効率向上を示す。
論文 参考訳(メタデータ) (2025-02-05T22:15:21Z) - Linear Discriminant Analysis in Credit Scoring: A Transparent Hybrid Model Approach [9.88281854509076]
特徴量削減手法として線形判別分析 (LDA) を実装し, モデルの複雑さの軽減を図る。
我々のハイブリッドモデルであるXG-DNNは、99.45%の精度と99%のF1スコアでLDAを上回りました。
モデル決定を解釈するために、LIME (local) と Morris Sensitivity Analysis (global) という2つの異なる説明可能なAI技術を適用した。
論文 参考訳(メタデータ) (2024-12-05T14:21:18Z) - QuAKE: Speeding up Model Inference Using Quick and Approximate Kernels for Exponential Non-Linearities [13.051302134031802]
QuAKEは、指数関数を素早く近似するためにIEEE-754浮動小数点表現の特定の特性を利用する演算子の集合である。
ソフトマックス,GELU,ロジスティック関数などの指数的非線形性において,QuAKEの効率を向上させる最適化を提案する。
論文 参考訳(メタデータ) (2024-11-30T09:26:56Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。