論文の概要: A Rosetta Stone for AI Benchmarks
- arxiv url: http://arxiv.org/abs/2512.00193v1
- Date: Fri, 28 Nov 2025 20:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.105255
- Title: A Rosetta Stone for AI Benchmarks
- Title(参考訳): AIベンチマークのためのRosetta Stone
- Authors: Anson Ho, Jean-Stanislas Denain, David Atanasov, Samuel Albanie, Rohin Shah,
- Abstract要約: ほとんどのAIベンチマークは、導入後数年から数ヶ月で飽和し、AI能力の長期的トレンドを研究するのは難しい。
ベンチマークを縫合する統計フレームワークを構築し、モデル機能とベンチマークの難しさを1つの数値スケールで評価する。
これは"Rosetta Stone"として機能し、同じベンチマークで評価されていなくても、幅広い能力と時間のモデルを比較することができます。
- 参考スコア(独自算出の注目度): 28.690200241767897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most AI benchmarks saturate within years or even months after they are introduced, making it hard to study long-run trends in AI capabilities. To address this challenge, we build a statistical framework that stitches benchmarks together, putting model capabilities and benchmark difficulties on a single numerical scale. This acts as a "Rosetta Stone", allowing us to compare models across a wide range of abilities and time, even if they are not evaluated on the same benchmarks. Moreover, this works without assuming how capabilities evolve across time or with training compute. We demonstrate three applications of this framework. First, we use it to measure the speed of AI progress over time, and to forecast future AI capabilities. Second, we estimate the rate of improvements in algorithmic efficiency, finding estimates that are higher, but broadly consistent with prior work. Finally, we find that our approach can be used to detect rapid accelerations in AI progress.
- Abstract(参考訳): ほとんどのAIベンチマークは、導入後数年から数ヶ月で飽和し、AI能力の長期的トレンドを研究するのは難しい。
この課題に対処するため、ベンチマークを縫合する統計フレームワークを構築し、モデル機能とベンチマークの難しさを1つの数値スケールで評価する。
これは"Rosetta Stone"として機能し、同じベンチマークで評価されていなくても、幅広い能力と時間のモデルを比較することができます。
さらにこれは、時間の経過とともに機能がどのように進化するか、あるいはトレーニング計算でどのように機能するかを仮定することなく機能する。
このフレームワークの3つの応用例を示す。
まず、時間とともにAIの進行速度を測定し、将来のAI能力を予測するためにそれを使用します。
第2に、アルゴリズム効率の改善率を推定し、高いが、以前の作業と大まかに一致している推定値を求める。
最後に、我々の手法がAIの進歩の急速な加速を検出するのに利用できることを発見した。
関連論文リスト
- AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - Controlling Thinking Speed in Reasoning Models [57.14541748751654]
人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作する。
本研究では,LRMが動的思考速度調整によって人間の知能を近似することを可能にする。
提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。
論文 参考訳(メタデータ) (2025-07-04T16:41:06Z) - Measuring AI Ability to Complete Long Tasks [5.986082428339293]
人間が通常、AIモデルが達成できるタスクを完了するのに要する時間を50%の成功率で測定します。
Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。
AIモデルの時間的地平線の増加は、より信頼性が高く、ミスに適応する能力によって引き起こされているように思われる。
論文 参考訳(メタデータ) (2025-03-18T17:59:31Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - Benchmarking Neural Network Training Algorithms [52.890134877995195]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。
コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。
固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文 参考訳(メタデータ) (2023-06-12T15:21:02Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z) - Position: Tensor Networks are a Valuable Asset for Green AI [7.066223472133622]
本稿では,テンソルネットワーク(TN)とグリーンAIの基本的な関係を紹介する。
我々は、TNは強力な数学的バックボーンと固有対数圧縮ポテンシャルのため、グリーンAIにとって価値があると論じる。
論文 参考訳(メタデータ) (2022-05-25T14:02:49Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。