論文の概要: ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment
- arxiv url: http://arxiv.org/abs/2606.00644v2
- Date: Thu, 04 Jun 2026 03:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:32.99007
- Title: ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment
- Title(参考訳): ForeSci: 前向きAI研究判断のためのLLMエージェントの評価
- Authors: Qiuyu Tian, Haojie Yin, Yingce Xia, Youyong Kong, Zequn Liu,
- Abstract要約: 研究員が歴史的証拠から前向きな判断を下せるかどうかを評価するためのベンチマークであるForeSciを紹介する。
ForeSciには、素早く動く4つのAIドメインと4つの意思決定ファミリに500のタスクが含まれている。
明確な証拠組織は、トレーサビリティと事実支援を改善するが、決定家族に強く依存する。
- 参考スコア(独自算出の注目度): 22.38716170940567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI research often requires decisions before future evidence exists: which bottleneck to attack, which direction to pursue, or where a project should be positioned. We introduce ForeSci, a temporally controlled benchmark for evaluating whether LLM agents can make such forward-looking research judgements from historical evidence. ForeSci contains 500 tasks across four fast-moving AI domains and four decision families. Each task is paired with a cutoff-aligned offline knowledge base; post-cutoff papers are hidden during generation and used only for validation. To avoid random future-event prediction, tasks are derived from pre-cutoff taxonomy branches and evidence signals, and answer-generation backbones are selected to precede the task cutoffs. We evaluate native LLMs, Hybrid RAG, and three research-agent adaptations across four backbones. Results show that explicit evidence organization improves traceability and factual support, but gains depend strongly on the decision family. Diagnostics reveal a recurring evidence-decision decoupling: agents may cite relevant evidence while forecasting the wrong research object. ForeSci turns forward-looking AI research judgement into a controlled benchmark for evaluating research agents as decision-making systems.
- Abstract(参考訳): AI研究は多くの場合、将来の証拠が存在する前に決定を必要とする。どのボトルネックを攻撃するか、どの方向を追求するか、プロジェクトはどこに配置すべきか。
本稿では,LLMエージェントが歴史的証拠から先見的な研究判断を下せるかどうかを評価するための,時間的に制御されたベンチマークであるForeSciを紹介する。
ForeSciには、素早く動く4つのAIドメインと4つの意思決定ファミリに500のタスクが含まれている。
各タスクはカットオフ整列されたオフラインの知識ベースとペアリングされる。
ランダムな将来予測を避けるため、タスクはカットオフ前の分類枝とエビデンス信号から導出され、タスクカットオフに先立って応答生成バックボーンが選択される。
LLM,Hybrid RAG,および4つのバックボーンにまたがる3つの研究エージェント適応を評価した。
その結果、明確な証拠組織はトレーサビリティと事実支援を改善するが、決定家族に強く依存することが明らかとなった。
エージェントは、間違った研究対象を予測しながら、関連する証拠を引用することができる。
ForeSciは、先見的なAI研究判断を、研究エージェントを意思決定システムとして評価するための制御されたベンチマークに変える。
関連論文リスト
- AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration [175.74514061083195]
提案するAutoResearchClawは,5つのメカニズムに基づいて構築されたマルチエージェント自律型研究パイプラインである。
25トピックの実験ステージベンチマークであるARC-Benchでは、AutoResearchClawがAI Scientist v2を54.7%上回っている。
論文 参考訳(メタデータ) (2026-05-19T15:49:51Z) - Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。
私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文 参考訳(メタデータ) (2026-05-18T23:55:08Z) - The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。
通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文 参考訳(メタデータ) (2026-04-27T16:23:09Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - Beyond Reactivity: Measuring Proactive Problem Solving in LLM Agents [3.0745879700441385]
PROBEは3つのコア機能のパイプラインとして活性を分解する。
GPT-5とClaude Opus-4.1の両方で、40%の最高のエンドツーエンドパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-22T17:00:45Z) - Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。