論文の概要: Meek Models Shall Inherit the Earth
- arxiv url: http://arxiv.org/abs/2507.07931v1
- Date: Thu, 10 Jul 2025 17:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.508489
- Title: Meek Models Shall Inherit the Earth
- Title(参考訳): 地球を継承するミークモデル(動画あり)
- Authors: Hans Gundlach, Jayson Lynch, Neil Thompson,
- Abstract要約: 過去10年で、少数の企業がAIシステムを驚くほどスケールアップし、AIモデルのパフォーマンスが不平等になった。
本稿では,AIモデルの能力の収束に繋がる,知能的な直観とは裏腹に,スケーリングへの回帰が減少すると論じる。
- 参考スコア(独自算出の注目度): 1.9647223141071104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past decade has seen incredible scaling of AI systems by a few companies, leading to inequality in AI model performance. This paper argues that, contrary to prevailing intuition, the diminishing returns to compute scaling will lead to a convergence of AI model capabilities. In other words, meek models (those with limited computation budget) shall inherit the earth, approaching the performance level of the best models overall. We develop a model illustrating that under a fixed-distribution next-token objective, the marginal capability returns to raw compute shrink substantially. Given current scaling practices, we argue that these diminishing returns are strong enough that even companies that can scale their models exponentially faster than other organizations will eventually have little advantage in capabilities. As part of our argument, we give several reasons that proxies like training loss differences capture important capability measures using evidence from benchmark data and theoretical performance models. In addition, we analyze empirical data on the capability difference of AI models over time. Finally, in light of the increasing ability of meek models, we argue that AI strategy and policy require reexamination, and we outline the areas this shift will affect.
- Abstract(参考訳): 過去10年で、少数の企業がAIシステムを驚くほどスケールアップし、AIモデルのパフォーマンスが不平等になった。
本稿では,AIモデルの能力の収束に繋がる,知能的な直観とは裏腹に,スケーリングへの回帰が減少すると論じる。
言い換えれば、ミークモデル(計算予算が限られているもの)は地球を継承し、最高のモデルのパフォーマンスレベルにアプローチする。
本研究では, 固定分布次目標下では, 限界能力が生の計算量を大幅に縮小することを示すモデルを構築した。
現在のスケーリングのプラクティスを考えると、これらの縮小したリターンは十分に強く、他の組織よりも指数関数的にモデルをスケールできる企業でさえ、最終的には機能面でのアドバンテージがほとんどない、と私たちは主張しています。
この議論の一環として、トレーニング損失差のようなプロキシが、ベンチマークデータや理論的性能モデルから得られた証拠を用いて重要な能力測定値を取得する理由をいくつか挙げる。
さらに,AIモデルの能力差に関する経験的データを時間とともに分析する。
最後に、ミークモデルの能力の増大を踏まえて、AI戦略とポリシーは再検討を必要としていると論じ、このシフトが影響する分野を概説する。
関連論文リスト
- Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Great Models Think Alike and this Undermines AI Oversight [47.7725284401918]
モデル類似性がAI監視の両面に与える影響について検討する。
本稿では,モデルミスの重複に基づくLM類似度尺度CAPAを提案する。
我々の研究は、モデル類似性の報告と修正の重要性を強調します。
論文 参考訳(メタデータ) (2025-02-06T18:56:01Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Tending Towards Stability: Convergence Challenges in Small Language Models [3.734405405403176]
その利点にもかかわらず、より小型のモデルはより大きなモデルに比べて性能が劣ることが多い。
これは、比例的に表現能力の低下によるものである。
階層のアクティベーションの収束とパラメータの有効ランクを結びつけることで、我々の分析は、小さなモデルの学習力学における非効率性に対処するために将来の研究を導くことができる。
論文 参考訳(メタデータ) (2024-10-15T09:57:19Z) - Structured Model Pruning for Efficient Inference in Computational Pathology [2.9687381456164004]
バイオメディカルイメージングにおいて広く使われているU-Netスタイルのアーキテクチャを解析する手法を開発した。
我々は,プルーニングが性能を低下させることなく,少なくとも70%圧縮できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-12T22:05:01Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Towards Deeper Deep Reinforcement Learning [42.960199987696306]
コンピュータビジョンや自然言語処理では、最先端の強化学習アルゴリズムは小さな内在性のみを使用することが多い。
データセットのサイズが制限要因ではないことを示し、代わりに、SACのアクターが批判を通じて勾配を取る不安定性が原因であると主張する。
論文 参考訳(メタデータ) (2021-06-02T13:41:02Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。