論文の概要: Forecasting Frontier Language Model Agent Capabilities
- arxiv url: http://arxiv.org/abs/2502.15850v1
- Date: Fri, 21 Feb 2025 02:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:38.387602
- Title: Forecasting Frontier Language Model Agent Capabilities
- Title(参考訳): 予測フロンティア言語モデルエージェント機能
- Authors: Govind Pimpale, Axel Højmark, Jérémy Scheurer, Marius Hobbhahn,
- Abstract要約: 言語モデル(LM)の下流能力を予測する6つの予測手法を評価する。
計算やモデルリリース日などの入力メトリクスからベンチマークスコアを直接予測する"ワンステップ"アプローチや、クロスベンチマークパフォーマンス(PC-1)や人間による競争力のあるElo評価といった中間メトリックを最初に予測する"ツーステップ"アプローチを採用しています。
当社の予測では,2026年初めまでに,能力の低い非特殊化LMエージェントがSWE-Bench Verifiedで54%,最先端LMエージェントが87%の成功率に達すると予測されている。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License:
- Abstract: As Language Models (LMs) increasingly operate as autonomous agents, accurately forecasting their capabilities becomes crucial for societal preparedness. We evaluate six forecasting methods that predict downstream capabilities of LM agents. We use "one-step" approaches that predict benchmark scores from input metrics like compute or model release date directly or "two-step" approaches that first predict an intermediate metric like the principal component of cross-benchmark performance (PC-1) and human-evaluated competitive Elo ratings. We evaluate our forecasting methods by backtesting them on a dataset of 38 LMs from the OpenLLM 2 leaderboard. We then use the validated two-step approach (Release Date$\to$Elo$\to$Benchmark) to predict LM agent performance for frontier models on three benchmarks: SWE-Bench Verified (software development), Cybench (cybersecurity assessment), and RE-Bench (ML research engineering). Our forecast predicts that by the beginning of 2026, non-specialized LM agents with low capability elicitation will reach a success rate of 54% on SWE-Bench Verified, while state-of-the-art LM agents will reach an 87% success rate. Our approach does not account for recent advances in inference-compute scaling and might thus be too conservative.
- Abstract(参考訳): 言語モデル(LM)が自律的なエージェントとして機能するにつれて、その能力の正確な予測は社会的準備にとって重要である。
我々は,LMエージェントの下流能力を予測する6つの予測手法を評価する。
計算やモデルリリース日などの入力メトリクスからベンチマークスコアを直接予測する"ワンステップ"アプローチや、クロスベンチマークパフォーマンス(PC-1)や人間による競争力のあるElo評価といった中間メトリックを最初に予測する"ツーステップ"アプローチを採用しています。
我々は,OpenLLM 2 のリーダーボードから38 LMのデータセットにバックテストを行い,予測手法の評価を行った。
次に、検証済みの2段階アプローチ(Release Date$\to$Elo$\to$Benchmark)を用いて、SWE-Bench Verified(ソフトウェア開発)、Cybench(サイバーセキュリティアセスメント)、Re-Bench(MLリサーチエンジニアリング)の3つのベンチマーク上で、フロンティアモデルのLMエージェントパフォーマンスを予測する。
当社の予測では,2026年初めまでに,能力の低い非特殊化LMエージェントがSWE-Bench Verifiedで54%,最先端LMエージェントが87%の成功率に達すると予測されている。
提案手法は,近年の推論・計算スケーリングの進歩を反映していないため,保守的すぎる可能性がある。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - AI Predicts AGI: Leveraging AGI Forecasting and Peer Review to Explore LLMs' Complex Reasoning Capabilities [0.3745329282477066]
2030年までに出現するAI(Artificial General Intelligence, AGI)の可能性を推定し, 最先端の大規模言語モデル16を課題とした。
これらの予測の質を評価するために,自動ピアレビュープロセス(LLM-PR)を実装した。
論文 参考訳(メタデータ) (2024-12-12T15:52:41Z) - Can We Predict Performance of Large Models across Vision-Language Tasks? [34.27319941609499]
本稿では,他のLVLMやタスクの観測結果に基づいて,未知のパフォーマンススコアを予測する新しいフレームワークを提案する。
スパースなパフォーマンスマトリックス$boldsymbolR$を使用します。各エントリ$R_mn$は、$n$-thデータセット上の$m$-thモデルのパフォーマンススコアを表します。
本研究では,未知のスコアの予測におけるPMFの精度,評価の順序付けにおける不確実性推定の信頼性,スパースデータ処理における拡張の有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T03:00:12Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。
本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文 参考訳(メタデータ) (2024-02-28T18:54:18Z) - Detecting Toxic Flow [0.40964539027092917]
本稿では,ブローカーが顧客から受ける有害取引を予測する枠組みを開発する。
我々は、我々の方法論をテストするために、外国為替取引のプロプライエタリなデータセットを使用します。
顧客から受け取った取引の内面化や外部化のために毒性予測を利用するブローカーのための戦略を考案する。
論文 参考訳(メタデータ) (2023-12-10T09:00:09Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。