論文の概要: BRIDGE: Predicting Human Task Completion Time From Model Performance
- arxiv url: http://arxiv.org/abs/2602.07267v1
- Date: Fri, 06 Feb 2026 23:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.539804
- Title: BRIDGE: Predicting Human Task Completion Time From Model Performance
- Title(参考訳): BRIDGE: モデルパフォーマンスから人間のタスク完了時間を予測する
- Authors: Fengyuan Liu, Jay Gala, Nilaksh, Dzmitry Bahdanau, Siva Reddy, Hugo Larochelle,
- Abstract要約: ヒューマンタスクの完了時間アノテーションに依存する既存のアプローチは、コストが高く、ノイズがあり、ベンチマークをまたいでスケールすることが難しい。
本稿では、モデル応答から潜伏困難尺度を学習し、それを人間のタスク完了時間に固定する統合心理測定フレームワークBRIDGEを提案する。
- 参考スコア(独自算出の注目度): 36.36759710005444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the real-world capabilities of AI systems requires grounding benchmark performance in human-interpretable measures of task difficulty. Existing approaches that rely on direct human task completion time annotations are costly, noisy, and difficult to scale across benchmarks. In this work, we propose BRIDGE, a unified psychometric framework that learns the latent difficulty scale from model responses and anchors it to human task completion time. Using a two-parameter logistic Item Response Theory model, we jointly estimate latent task difficulty and model capability from model performance data across multiple benchmarks. We demonstrate that latent task difficulty varies linearly with the logarithm of human completion time, allowing human task completion time to be inferred for new benchmarks from model performance alone. Leveraging this alignment, we forecast frontier model capabilities in terms of human task length and independently reproduce METR's exponential scaling results, with the 50% solvable task horizon doubling approximately every 6 months.
- Abstract(参考訳): AIシステムの実世界の能力を評価するには、人間の解釈可能なタスクの難易度でベンチマークのパフォーマンスを基礎にする必要がある。
ヒューマンタスクの完了時間アノテーションに依存する既存のアプローチは、コストが高く、ノイズがあり、ベンチマークをまたいでスケールすることが難しい。
本研究では、モデル応答から潜伏困難尺度を学習し、それを人間のタスク完了時間に固定する統合心理測定フレームワークBRIDGEを提案する。
2パラメータのロジスティックな項目応答理論モデルを用いて、複数のベンチマークにわたるモデル性能データから潜在タスクの難易度とモデル能力を共同で推定する。
そこで本研究では,人間の作業完了時間の対数によって遅延タスクの難易度が線形に変化していることを示し,モデルの性能のみから,新しいベンチマークに対して人間の作業完了時間を推定できることを示した。
このアライメントを活用することで、人間のタスク長の観点からフロンティアモデル能力を予測し、METRの指数スケーリング結果を独立に再現する。
関連論文リスト
- Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning [49.82882141491629]
効果的なオンライン学習は、タスク毎のサンプル数ではなく、タスクの回数を拡大すべきである、と我々は主張する。
この体制はモデルに基づく強化学習の構造上の利点を明らかにしている。
我々は、オンライン学習のためのサンプル効率のよいマルチタスクアルゴリズムである textbfEfficientZero-Multitask (EZ-M) を用いて、このアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-03-02T05:07:43Z) - Evaluating Few-Shot Temporal Reasoning of LLMs for Human Activity Prediction in Smart Environments [1.411614392022118]
既存のデータ駆動エージェントベースのモデルは、低データ環境において苦労する。
本稿では,人間の知識に基づいて事前学習された大規模言語モデルがこのギャップを埋めるかどうかを検討する。
論文 参考訳(メタデータ) (2026-01-20T20:58:17Z) - Error-driven Data-efficient Large Multimodal Model Tuning [35.20400815089843]
大規模マルチモーダルモデル (LMM) は、多くの学術ベンチマークで顕著な性能を示している。
本稿では,新しいタスクにジェネリックLMMを効率よく適応することを目的とした,エラー駆動型データ効率チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:07:11Z) - Optimizing Locomotor Task Sets in Biological Joint Moment Estimation for Hip Exoskeleton Applications [0.0]
本稿では,モデル性能を保った最小かつ代表的タスク群を特定するために,ロコモータなタスクセット最適化手法を提案する。
本研究は,データ収集とモデルトレーニングに関連するコストを大幅に削減しつつ,モデルの精度を維持する能力を示す。
論文 参考訳(メタデータ) (2024-12-10T17:29:21Z) - PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。
大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文 参考訳(メタデータ) (2024-10-31T17:53:12Z) - Plots Unlock Time-Series Understanding in Multimodal Models [5.792074027074628]
本稿では,マルチモーダルファウンデーションモデルの既存のビジョンエンコーダを利用して,プロットを介して時系列データを"見る"方法を提案する。
実験により,本手法は生の時系列データをテキストとして提供する方法よりも優れていることが示された。
より複雑で現実的なシナリオへの明確な推論ステップによる合成タスクからの一般化性を実証するために、我々のアプローチを消費者健康タスクに適用する。
論文 参考訳(メタデータ) (2024-10-03T16:23:13Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。