論文の概要: Look Before you Leap: Estimating LLM Benchmark Scores from Descriptions
- arxiv url: http://arxiv.org/abs/2509.20645v1
- Date: Thu, 25 Sep 2025 01:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.643622
- Title: Look Before you Leap: Estimating LLM Benchmark Scores from Descriptions
- Title(参考訳): Leapに先んじて - 説明からLLMベンチマークスコアを推定する
- Authors: Jungsoo Park, Ethan Mendes, Gabriel Stanovsky, Alan Ritter,
- Abstract要約: テキストのみのパフォーマンス予測について検討し、タスク記述と意図した構成からモデルのスコアを推定する。
系統的な研究を支援するため,多種多様なタスク,ドメイン,メトリクスにまたがる記述性能対のコーパスであるPreCOGをキュレートする。
実験では、タスクは困難だが実現可能であり、高い信頼しきい値の精度サブセットで平均8.7の絶対誤差に達する。
- 参考スコア(独自算出の注目度): 35.48753431700434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in large language models is constrained by an evaluation bottleneck: build a benchmark, evaluate models and settings, then iterate. We therefore ask a simple question: can we forecast outcomes before running any experiments? We study text-only performance forecasting: estimating a model's score from a redacted task description and intended configuration, with no access to dataset instances. To support systematic study, we curate PRECOG, a corpus of redacted description-performance pairs spanning diverse tasks, domains, and metrics. Experiments show the task is challenging but feasible: models equipped with a retrieval module that excludes source papers achieve moderate prediction performance with well-calibrated uncertainty, reaching mean absolute error as low as 8.7 on the Accuracy subset at high-confidence thresholds. Our analysis indicates that stronger reasoning models engage in diverse, iterative querying, whereas current open-source models lag and often skip retrieval or gather evidence with limited diversity. We further test a zero-leakage setting, forecasting on newly released datasets or experiments before their papers are indexed, where GPT-5 with built-in web search still attains nontrivial prediction accuracy. Overall, our corpus and analyses offer an initial step toward open-ended anticipatory evaluation, supporting difficulty estimation and smarter experiment prioritization.
- Abstract(参考訳): 大きな言語モデルの進歩は、ベンチマークを構築し、モデルと設定を評価し、反復する、という評価ボトルネックによって制約される。
実験をする前に、結果を予測できますか?
テキストのみのパフォーマンス予測について検討する: データセットインスタンスにアクセスせずに、タスク記述と意図された設定からモデルのスコアを推定する。
系統的な研究を支援するため,多種多様なタスク,ドメイン,メトリクスにまたがる記述性能対のコーパスであるPreCOGをキュレートする。
ソース論文を除外した検索モジュールを備えたモデルでは、信頼性の高いしきい値で精度サブセット上で平均8.7の絶対誤差に達した。
我々の分析は、強力な推論モデルが多様で反復的なクエリを行うのに対して、現在のオープンソースモデルは遅延し、検索を省略したり、限られた多様性を持つ証拠を収集することが多いことを示唆している。
さらに、論文がインデックス化される前に、新たにリリースされたデータセットや実験を予測するゼロ推論設定をテストします。
全体として、私たちのコーパスと分析は、オープンな予測評価に向けた最初のステップを提供し、難易度推定とよりスマートな実験優先順位付けを支援する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Precise Model Benchmarking with Only a Few Observations [6.092112060364272]
本稿では,各サブグループの直接推定と回帰推定を個別にバランスする経験的ベイズ推定器を提案する。
EBは、直接的および回帰的アプローチと比較して、LCM性能のより正確な推定を一貫して提供する。
論文 参考訳(メタデータ) (2024-10-07T17:26:31Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection [10.301985230669684]
本稿では,ニュース見出しにおけるフレーミングの検出において,GPT-4,GPT-3.5 Turbo,FLAN-T5モデルを包括的に分析する。
我々はこれらのモデルを,ゼロショット,ドメイン内例による少数ショット,クロスドメイン例,モデルが予測を説明する設定など,さまざまなシナリオで評価した。
論文 参考訳(メタデータ) (2024-02-18T15:27:48Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。