Fugu-MT 論文翻訳(概要): ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

論文の概要: ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

arxiv url: http://arxiv.org/abs/2605.26340v1
Date: Mon, 25 May 2026 21:30:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.473807
Title: ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence
Title（参考訳）: ScientistOne: チェーン・オブ・エビデンスによる人間レベルの自律的研究を目指して
Authors: Rui Meng, Bhavana Dalvi Mishra, Jiefeng Chen, Chun-Liang Li, Palash Goyal, Mihir Parmar, Yiwen Song, Yale Song, Rajarishi Sinha, Parthasarathy Ranganathan, Burak Gokturk, Jinsung Yoon, Tomas Pfister,
Abstract要約: チェーン・オブ・エビデンス(Chain-of-Evidence, CoE)は、すべてのクレームがエビデンス・ソースにトレース可能であることを要求する検証可能なフレームワークである。 CoE Auditはポストホック監査であり、スコア検証、仕様違反、参照検証、メソッドコードアライメントという4つの整合性チェックが全システムに均一に適用される。
参考スコア（独自算出の注目度）: 57.37494162084001
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous research agents produce competitive solutions and professional-looking manuscripts, yet their outputs contain verifiability failures undetectable by surface-level evaluation: fabricated citations, unreproducible scores, and method descriptions that diverge from the implementation. We address this through three contributions. First, Chain-of-Evidence (CoE), a verifiability framework requiring every claim to be traceable to its evidence source. Second, ScientistOne, an end-to-end autonomous research system that maintains evidence chains by construction throughout literature review, solution discovery, and paper writing. Third, CoE Audit, a post-hoc audit whose four integrity checks -- score verification, specification violation, reference verification, and method-code alignment -- apply uniformly to all systems. Across 75 papers spanning five systems and five frontier research tasks, every baseline exhibits at least one systematic failure mode: hallucinated reference rates reach 21%, score verification passes in as few as 42% of papers, and method-code alignment ranges from 20% to 80%. ScientistOne achieves zero hallucinated references (0/337), perfect score verification (12/12), and the highest method-code alignment (14/15), while matching or exceeding human expert performance on all five tasks. ScientistOne further generalizes to six additional tasks spanning medical imaging, fine-grained recognition, 3D perception, and language modeling, achieving state-of-the-art on Parameter Golf and gold medals on MLE-Bench tasks where baselines fail entirely.
Abstract（参考訳）: 自律的な研究エージェントは、競争力のあるソリューションとプロのように見える原稿を生成するが、その出力には、表面レベルの評価によって検出できない検証可能性の失敗が含まれている:製造された引用、再現不可能なスコア、実装から分岐するメソッド記述。これを3つのコントリビューションを通じて解決する。第一にChain-of-Evidence(CoE)は、すべての主張が証拠ソースにトレース可能であることを要求する検証可能なフレームワークである。第二に、ScientistOneはエンドツーエンドの自律的な研究システムで、文献レビュー、ソリューション発見、ペーパーライティングを通じて、建設によってエビデンスチェーンを維持する。第三に、CoE Auditは、スコア検証、仕様違反、参照検証、メソッドコードアライメントという4つの整合性チェックをすべてのシステムに適用するポストホック監査である。 5つのシステムと5つのフロンティア研究タスクにまたがる75以上の論文では、すべてのベースラインが少なくとも1つの系統的な障害モードを示しており、幻覚的基準レートは21%、スコア検証は42%、メソッドコードアライメントは20%から80%である。 ScientistOneは、ゼロ幻覚参照(0/337)、完全スコア検証(12/12)、最高メソッドコードアライメント(14/15)を達成し、5つのタスクすべてで人間の専門家のパフォーマンスをマッチングまたは超過する。さらにScientistOneは、医療画像、きめ細かい認識、3D知覚、言語モデリングを含む6つのタスクを一般化し、パラメータゴルフの最先端とMLE-Benchのタスクにおける金メダルを達成している。

関連論文リスト

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems [100.24694338574402]
本稿では,インダクティブ・デダクティブ・シンセシス(IDS)について述べる。 IDSは約6.8時間で7/7を達成し、1仕様あたり106ドル、専門家の努力の約200倍、SOTAエージェントの約17%を達成している。 IDSはパフォーマンスフィードバックを同じループに組み込んでおり、検証されたシステムよりも最大3倍高速な実装を実現している。
論文参考訳（メタデータ） (2026-05-22T00:05:36Z)
The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文参考訳（メタデータ） (2026-04-27T16:23:09Z)
MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome [109.15093810810214]
MiroEvalはディープリサーチシステムのベンチマークおよび評価フレームワークである。ベンチマークは、実際のユーザニーズに基づいて100のタスクで構成されている。提案した評価スイートは3つの相補的な次元に沿って深層研究システムを評価する。
論文参考訳（メタデータ） (2026-03-30T13:16:03Z)
OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。 OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文参考訳（メタデータ） (2026-01-04T15:48:51Z)
AI-Powered Citation Auditing: A Zero-Assumption Protocol for Systematic Reference Verification in Academic Research [0.0]
本稿では,ツール使用機能を備えたエージェントAIを用いた,体系的かつ総合的な参照監査のための,AIを活用した新しい方法論を提案する。我々は,引用が正しいと仮定せずに,複数の学術データベースに対するすべての参照を独立に検証するゼロ推定検証プロトコルを開発した。その結果、公表されたPLOS論文の平均検証率は91.7%で、製造された参照、削除された記事、孤児の引用、捕食雑誌の発見に成功している。この研究は、学術的引用整合性のための最初の検証済みAIエージェント方法論を確立し、監督者、学生、制度的品質保証の実践的適用性を実証する。
論文参考訳（メタデータ） (2025-10-17T16:53:03Z)
SurveyBench: Can LLM(-Agents) Write Academic Surveys that Align with Reader Needs? [37.28508850738341]
調査書は労働集約的で知的に要求されるタスクである。一般的なDeepResearchエージェントやサーベイ特殊化手法のような最近のアプローチは、自動的にサーベイを生成することができる。しかし、そのアウトプットは人間の基準に欠けることが多く、厳格で読者対応のベンチマークが欠けている。本稿では,詳細なクイズ駆動評価フレームワークであるSurveyBenchを提案する。
論文参考訳（メタデータ） (2025-10-03T15:49:09Z)
HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文参考訳（メタデータ） (2025-08-01T20:30:42Z)
SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation [2.985620880452744]
SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
論文参考訳（メタデータ） (2025-06-15T02:23:47Z)
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery [23.773528748933934]
我々は、データ駆動科学発見のための言語エージェントを評価するための新しいベンチマークであるScienceAgentBenchを紹介する。 44の査読論文から4つの分野の102の課題を抽出し,9つの課題の専門家による検証を行った。 ScienceAgentBenchを使って、オープンウェイトでプロプライエタリなLLMを5つ評価し、それぞれにダイレクトプロンプト、OpenHands CodeAct、セルフAIの3つのフレームワークを持つ。
論文参考訳（メタデータ） (2024-10-07T14:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。