論文の概要: The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next
- arxiv url: http://arxiv.org/abs/2605.18840v1
- Date: Wed, 13 May 2026 03:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.657766
- Title: The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next
- Title(参考訳): フロンティアモデルの成長する痛み - リーダボードが分離をやめて次を計測する時
- Authors: Adil Amin,
- Abstract要約: リーダーボードは独立した軸上でフロンティアモデルをランク付けするが、機能強化やリリース間のトレードオフは明らかにしない。
我々はSWEベンチとGPQAダイアモンドスコアを集団結合傾向とリリース毎残差に分解する。
我々は,3段階のプレイブック(位置,診断,回転),ラベルごとの測定・優先度表,そして7つの偽造予測を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leaderboards rank frontier models on independent axes but do not reveal whether capabilities reinforce or trade off across releases -- and at the frontier, this interaction is the more informative signal. We decompose paired SWE-bench and GPQA Diamond scores into a population coupling trend and per-release residual ($h$-field) that diagnoses capability emphasis and identifies which measurement or stress test is most informative next. Across 34 models from 10 labs (2024--2026), capabilities cooperate ($r = +0.72$, $p < 10^{-6}$), but cooperation varies by lab and over time: DeepSeek reversed from reasoning-rich to coding-first ($h$: $+11.2 \to -4.7$, 15.9-pp swing); Google maintains consistent reasoning emphasis; Anthropic oscillates between coding excursions and recovery. Cooperation is not static -- it cascades. Six open-weight architectures confirm a second capability transition at 30--72B, and SWE-bench is now saturating while HLE and instruction-following retain discriminatory spread -- signaling the next axis rotation. We provide a three-level playbook (locate, diagnose, rotate), a per-lab measurement-priority table, and seven falsifiable predictions with timestamped criteria for the next 12 months of frontier releases. Per-lab coupling slopes vary $5\times$ (Google $1.15$ vs. DeepSeek $0.23$), quantifying how efficiently each recipe converts coding gains into reasoning. Five April 2026 releases confirm the diagnostic out of sample ($r$ rises from $+0.72$ to $+0.75$). An interactive dashboard provides phase classification with actionable recommendations, $h$-field diagnostics, per-lab coupling trajectories, ODE-based scaling predictions, benchmark rotation guidance, self-steering demo, and live tracking of all seven predictions: https://zehenlabs.com/cape/.
- Abstract(参考訳): リーダーボードは独立した軸上でフロンティアモデルをランク付けするが、機能強化やリリース間のトレードオフは明らかにしない。
本研究では,SWE-benchとGPQAダイアモンドのスコアを集団結合傾向に分解し,各リリース毎の残差(h$-field)を診断し,次にどの測定やストレステストが最も有益かを特定する。
10研究室(2024-2026)の34モデル(r = +0.72$, $p < 10^{-6}$)の合計で、協力はラボと時間によって異なる: DeepSeekは推論リッチからコーディングファースト(h$:$+11.2 \to -4.7$, 15.9-pp swing)へと逆転した。
協調は静的ではありません -- カスケードです。
6つのオープンウェイトアーキテクチャは、30--72Bで第2の能力遷移を確認し、SWEベンチは飽和し、HLEと命令追従は、次の軸回転を示す。
我々は,3段階のプレイブック(位置,診断,回転),ラベルごとの測定・優先度表,および次の12ヶ月のフロンティアリリースのタイムスタンプ付き基準による7つの偽装予測を提供する。
ラベルごとのカップリングスロープは5\times$(Google $1.15$ vs. DeepSeek $0.23$)で、それぞれのレシピがいかに効率的にコーディングの利得を推論に変換するかを定量化する。
2026年4月5日のリリースでは、サンプル(r$は$+0.72$から$+0.75$に上昇する)の診断が確定した。
インタラクティブダッシュボードは、アクション可能なレコメンデーション、$h$フィールド診断、ラブ毎の結合トラジェクトリ、ODEベースのスケーリング予測、ベンチマークローテーションガイダンス、セルフステアリングデモ、および7つの予測のライブトラッキングを備えたフェーズ分類を提供する。
関連論文リスト
- Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling [0.0]
16家系の63塩基モデルにおける推論と真理の結合度を測定した。
我々は、家族依存の臨界スケール(N_c$)以下の損失曲線を目に見えない体制変化を発見し、その上、彼らは協力する。
論文 参考訳(メタデータ) (2026-05-13T03:14:09Z) - What Do EEG Foundation Models Capture from Human Brain Signals? [64.48249643001402]
現代の脳波基礎モデルは、自己教師付き事前訓練を通じて生信号から直接学習する。
我々は3つのサブクエストに分解する: モデルが何を学習するか、モデルを何に使用するのか、そしてどのように説明できるのか。
3つの基礎モデル(CSBrain, CBraMod, LaBraM),5つの臨床タスク(MDD, Stress, ISRUC-Sleep, TUSL, Siena)と6ファミリー63機能レキシコンを含む。
論文 参考訳(メタデータ) (2026-05-12T01:57:53Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - Beating the Style Detector: Three Hours of Agentic Research on the AI-Text Arms Race [3.9508043303559828]
実験的なNLP研究を再現するには数週間を要した。
全コード、648ドル(約6,800円)の原案、訓練された検出器、診断、および敵の軌道がリリースされている。
論文 参考訳(メタデータ) (2026-05-04T14:10:41Z) - Bayesian X-Learner: Calibrated Posterior Inference for Heterogeneous Treatment Effects under Heavy-Tailed Outcomes [0.0]
X-ラーナー(X-ラーナー、X-ラーナー、X-ラーナー、X-ラーナー、X-ラーナー、X-ラーナー、X-ラーナー、X-ラーナー、X-ラーナー。
20-25%の尾密度を持つ汚染された「鯨」DGPでは、ハマーのミニマックス=$の関係でハマー=$損失を選択する1フラグ拡張 (contamination_severity) が厳密な信頼区間を持つ$(x)$を回復する。
論文 参考訳(メタデータ) (2026-04-30T04:07:11Z) - When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors [66.18091962164219]
既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。
言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
論文 参考訳(メタデータ) (2026-04-23T03:48:56Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Hardware Validation of DAGI via a Modular "Ridge" Signature and High-Order Synergistic Information [0.0]
IBM Quantumハードウェア上でのDAGI(Directed Acyclic Graph Information)フレームワーク。
理想的な出力分布が低次元モジュラー多様体(リッジ)に制約される小さな制御された実験
キーリカバリはチャンスを超えた:ショット毎の精度0.1689(チャンス0.125,95% Wilson CI[0.1610, 0.1772])
これらの結果は、DAGIが非自明でハードウェアに耐性のある情報構造を検出し、定量化するという主張を支持する。
論文 参考訳(メタデータ) (2026-04-16T14:16:59Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。