論文の概要: Proof of Time: A Benchmark for Evaluating Scientific Idea Judgments
- arxiv url: http://arxiv.org/abs/2601.07606v1
- Date: Mon, 12 Jan 2026 14:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.472867
- Title: Proof of Time: A Benchmark for Evaluating Scientific Idea Judgments
- Title(参考訳): Proof of Time: 科学的観念判断のためのベンチマーク
- Authors: Bingyang Ye, Shan Chen, Jingxuan Tu, Chen Liu, Zidi Xiong, Samuel Schmidgall, Danielle S. Bitterman,
- Abstract要約: PoTは、大規模言語モデルのための半検証可能なベンチマークフレームワークである。
科学的観念判断と下流の信号とを結びつけ、後に観測可能となる。
PoTは将来の科学的思考判断タスクにおけるエージェントのスケーラブルな評価をサポートする。
- 参考スコア(独自算出の注目度): 12.46263502996029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly being used to assess and forecast research ideas, yet we lack scalable ways to evaluate the quality of models' judgments about these scientific ideas. Towards this goal, we introduce PoT, a semi-verifiable benchmarking framework that links scientific idea judgments to downstream signals that become observable later (e.g., citations and shifts in researchers' agendas). PoT freezes a pre-cutoff snapshot of evidence in an offline sandbox and asks models to forecast post-cutoff outcomes, enabling verifiable evaluation when ground truth arrives, scalable benchmarking without exhaustive expert annotation, and analysis of human-model misalignment against signals such as peer-review awards. In addition, PoT provides a controlled testbed for agent-based research judgments that evaluate scientific ideas, comparing tool-using agents to non-agent baselines under prompt ablations and budget scaling. Across 30,000+ instances spanning four benchmark domains, we find that, compared with non-agent baselines, higher interaction budgets generally improve agent performance, while the benefit of tool use is strongly task-dependent. By combining time-partitioned, future-verifiable targets with an offline sandbox for tool use, PoT supports scalable evaluation of agents on future-facing scientific idea judgment tasks.
- Abstract(参考訳): 大規模言語モデルは研究のアイデアの評価と予測にますます使われていますが、これらの科学的アイデアに関するモデルの判断の質を評価するためのスケーラブルな方法が欠如しています。
この目標に向けて,科学的な思考判断と下流の信号(例えば,研究者の議題における引用や変化)を関連付ける半検証可能なベンチマークフレームワークPoTを導入する。
PoTは、オフラインサンドボックスで証拠のプレカットオフスナップショットを凍結し、モデルにカットオフ後の結果の予測を依頼し、地上の真実が到着した時に検証可能な評価を可能にし、包括的な専門家のアノテーションなしでスケーラブルなベンチマークを可能にし、ピアレビューアワードのような信号に対する人間モデルの不一致を分析します。
さらに、PoTは、科学的アイデアを評価するエージェントベースの研究判断のための制御されたテストベッドを提供し、ツール使用エージェントと非エージェントベースラインを即時アブレーションと予算スケーリングで比較する。
4つのベンチマークドメインにまたがる3万以上のインスタンスのうち、非エージェントベースラインと比較して、高いインタラクション予算は一般的にエージェントパフォーマンスを改善するが、ツール使用の利点はタスク依存に強く依存している。
時間分割で将来検証可能なターゲットとツール使用用のオフラインサンドボックスを組み合わせることで、PoTは将来の科学的アイデア判断タスクにおけるエージェントのスケーラブルな評価をサポートする。
関連論文リスト
- Current Agents Fail to Leverage World Model as Tool for Foresight [61.82522354207919]
エージェントは、行動する前に結果を予測するためにそれらを使用できます。
本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2026-01-07T13:15:23Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。