論文の概要: BRIDGE: Predicting Human Task Completion Time From Model Performance
- arxiv url: http://arxiv.org/abs/2602.07267v1
- Date: Fri, 06 Feb 2026 23:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.539804
- Title: BRIDGE: Predicting Human Task Completion Time From Model Performance
- Title(参考訳): BRIDGE: モデルパフォーマンスから人間のタスク完了時間を予測する
- Authors: Fengyuan Liu, Jay Gala, Nilaksh, Dzmitry Bahdanau, Siva Reddy, Hugo Larochelle,
- Abstract要約: ヒューマンタスクの完了時間アノテーションに依存する既存のアプローチは、コストが高く、ノイズがあり、ベンチマークをまたいでスケールすることが難しい。
本稿では、モデル応答から潜伏困難尺度を学習し、それを人間のタスク完了時間に固定する統合心理測定フレームワークBRIDGEを提案する。
- 参考スコア(独自算出の注目度): 36.36759710005444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the real-world capabilities of AI systems requires grounding benchmark performance in human-interpretable measures of task difficulty. Existing approaches that rely on direct human task completion time annotations are costly, noisy, and difficult to scale across benchmarks. In this work, we propose BRIDGE, a unified psychometric framework that learns the latent difficulty scale from model responses and anchors it to human task completion time. Using a two-parameter logistic Item Response Theory model, we jointly estimate latent task difficulty and model capability from model performance data across multiple benchmarks. We demonstrate that latent task difficulty varies linearly with the logarithm of human completion time, allowing human task completion time to be inferred for new benchmarks from model performance alone. Leveraging this alignment, we forecast frontier model capabilities in terms of human task length and independently reproduce METR's exponential scaling results, with the 50% solvable task horizon doubling approximately every 6 months.
- Abstract(参考訳): AIシステムの実世界の能力を評価するには、人間の解釈可能なタスクの難易度でベンチマークのパフォーマンスを基礎にする必要がある。
ヒューマンタスクの完了時間アノテーションに依存する既存のアプローチは、コストが高く、ノイズがあり、ベンチマークをまたいでスケールすることが難しい。
本研究では、モデル応答から潜伏困難尺度を学習し、それを人間のタスク完了時間に固定する統合心理測定フレームワークBRIDGEを提案する。
2パラメータのロジスティックな項目応答理論モデルを用いて、複数のベンチマークにわたるモデル性能データから潜在タスクの難易度とモデル能力を共同で推定する。
そこで本研究では,人間の作業完了時間の対数によって遅延タスクの難易度が線形に変化していることを示し,モデルの性能のみから,新しいベンチマークに対して人間の作業完了時間を推定できることを示した。
このアライメントを活用することで、人間のタスク長の観点からフロンティアモデル能力を予測し、METRの指数スケーリング結果を独立に再現する。
関連論文リスト
- Error-driven Data-efficient Large Multimodal Model Tuning [35.20400815089843]
大規模マルチモーダルモデル (LMM) は、多くの学術ベンチマークで顕著な性能を示している。
本稿では,新しいタスクにジェネリックLMMを効率よく適応することを目的とした,エラー駆動型データ効率チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:07:11Z) - Optimizing Locomotor Task Sets in Biological Joint Moment Estimation for Hip Exoskeleton Applications [0.0]
本稿では,モデル性能を保った最小かつ代表的タスク群を特定するために,ロコモータなタスクセット最適化手法を提案する。
本研究は,データ収集とモデルトレーニングに関連するコストを大幅に削減しつつ,モデルの精度を維持する能力を示す。
論文 参考訳(メタデータ) (2024-12-10T17:29:21Z) - PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。
大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文 参考訳(メタデータ) (2024-10-31T17:53:12Z) - Plots Unlock Time-Series Understanding in Multimodal Models [5.792074027074628]
本稿では,マルチモーダルファウンデーションモデルの既存のビジョンエンコーダを利用して,プロットを介して時系列データを"見る"方法を提案する。
実験により,本手法は生の時系列データをテキストとして提供する方法よりも優れていることが示された。
より複雑で現実的なシナリオへの明確な推論ステップによる合成タスクからの一般化性を実証するために、我々のアプローチを消費者健康タスクに適用する。
論文 参考訳(メタデータ) (2024-10-03T16:23:13Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。