論文の概要: The Last Human-Written Paper: Agent-Native Research Artifacts
- arxiv url: http://arxiv.org/abs/2604.24658v1
- Date: Mon, 27 Apr 2026 16:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.157741
- Title: The Last Human-Written Paper: Agent-Native Research Artifacts
- Title(参考訳): 人文科学最後の論文 : エージェント・Native Research Artifacts (特集 エージェント・Native Research Artifacts)
- Authors: Jiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen, Xiaoyan Bai, Haizhong Zheng, Carl Chen, Zhiyang Chen, Haojie Ye, Yujuan Fu, Zexue He, Zijian Jin, Zhenyu Zhang, Shangquan Sun, Maestro Harmon, John Dianzhuo Wang, Jianqiao Zeng, Jiachen Sun, Mingyuan Wu, Baoyu Zhou, Yuchen You, Shijian Lu, Yiming Qiu, Fan Lai, Yuan Yuan, Yao Li, Junyuan Hong, Ruihao Zhu, Beidi Chen, Alex Pentland, Ang Chen, Mosharaf Chowdhury, Zechen Zhang,
- Abstract要約: 本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAra(Agent-Native Research Artifact)を紹介する。
通常の開発中に意思決定と終了をキャプチャするLive Research Manager,レガシPDFとリポジトリをArasに変換するAraコンパイラ,客観的チェックを自動化するAraネイティブレビューシステムという,3つのメカニズムがエコシステムをサポートする。
- 参考スコア(独自算出の注目度): 100.9880949338206
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (Ara), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an Ara Compiler that translates legacy PDFs and repos into Aras; and an Ara-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, Ara raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in Ara accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.
- Abstract(参考訳): 科学出版物は枝分かれした反復的な研究プロセスを線形な物語に圧縮し、途中で発見されたものの大半を捨てる。
このコンパイルは、2つの構造的コストを課している: 実験が失敗し、仮説が却下されたストーリーテリング税と、分岐探索プロセスが線形な物語に適合するように破棄されたエンジニアリング税。
人間の読者には耐えられるが、これらのコストはAIエージェントが公開作品を理解し、再現し、拡張する必要があるときに重要になる。
本稿では,Ara(Agent-Native Research Artifact)という,論文を機械処理可能な研究パッケージに置き換えるプロトコルを紹介した。
通常の開発中に意思決定と終了をキャプチャするLive Research Manager,レガシPDFとリポジトリをArasに変換するAraコンパイラ,客観的チェックを自動化するAraネイティブレビューシステムという,3つのメカニズムがエコシステムをサポートする。
PaperBenchとRe-Benchでは、質問応答精度を72.4%から93.7%に引き上げ、再現成功率を57.4%から64.4%に引き上げている。
RE-Benchの5つのオープンエンド拡張タスクでは、Araで保存された障害トレースが進行を加速するが、エージェントの能力に応じて、有能なエージェントが事前実行ボックスの外に足を踏み入れることを制限することもできる。
関連論文リスト
- PRBench: End-to-end Paper Reproduction in Physics Research [32.672534450424386]
PRBenchは、11のサブフィールドにまたがる30の専門家によるタスクのベンチマークである。
エージェントは、タスク命令と紙の内容のみを提供し、サンドボックス実行環境で動作させる。
PRBench上の符号化エージェントのセットを評価し,科学的推論と実行の重要な側面にわたってそれらの能力を分析する。
論文 参考訳(メタデータ) (2026-03-29T11:44:57Z) - AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model [1.14219428942199]
既存の自動研究システムは、ステートレスでリニアなパイプラインとして動作する。
マルチエージェントオーケストレーションフレームワークである textbfAI-Supervisor を提案する。
エージェントは、人間の関心によって駆動されるエンドツーエンドのAI研究の監督を提供する。
論文 参考訳(メタデータ) (2026-03-25T15:16:51Z) - NoveltyAgent: Autonomous Novelty Reporting Agent with Point-wise Novelty Analysis and Self-Validation [34.18769961207746]
包括的で忠実なノベルティレポートを生成するために設計されたマルチエージェントシステムであるNovetyAgentを紹介する。
写本を細かな検索と比較のために離散的な新規点に分解し、総合的な関連論文データベースを構築する。
実験の結果、NovetyAgentは最先端のパフォーマンスを達成し、GPT-5 DeepResearchを10.15%上回った。
論文 参考訳(メタデータ) (2026-03-21T17:19:11Z) - AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - FlyAOC: Evaluating Agentic Ontology Curation of Drosophila Scientific Knowledge Bases [10.00386797940562]
本研究では,FlyBenchを用いて,エンドツーエンドのエージェントキュレーションにおけるAIエージェントの評価を行う。
遺伝子記号のみが与えられた場合、エージェントは構造化アノテーションを生成するために16,898のフルテキスト文書のコーパスを検索して読み込まなければならない。
このベンチマークには、FlyBaseから引き出された100の遺伝子にまたがる、専門家による7,397のアノテーションが含まれている。
論文 参考訳(メタデータ) (2026-02-09T20:12:38Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。