論文の概要: AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model
- arxiv url: http://arxiv.org/abs/2603.24402v1
- Date: Wed, 25 Mar 2026 15:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.358055
- Title: AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model
- Title(参考訳): AIスーパーバイザ:永続的な研究世界モデルによる自律型AI研究スーパービジョン
- Authors: Yunbo Long,
- Abstract要約: 既存の自動研究システムは、状態のない線形パイプラインとして動作し、研究環境の永続的な理解を保たずに出力を生成する。
我々はAutoProfについて紹介する。AutoProfはマルチエージェントのオーケストレーションフレームワークで、専門エージェントは人間の興味によって駆動されるエンドツーエンドのAI研究の監督を提供する。
シーケンシャルパイプラインとは異なり、AutoProfは知識グラフとして実装された連続的に進化するResearch World Modelを維持している。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing automated research systems operate as stateless, linear pipelines, generating outputs without maintaining a persistent understanding of the research landscape. They process papers sequentially, propose ideas without structured gap analysis, and lack mechanisms for agents to verify or refine each other's findings. We present AutoProf (Autonomous Professor), a multi-agent orchestration framework where specialized agents provide end-to-end AI research supervision driven by human interests, from literature review through gap discovery, method development, evaluation, and paper writing, via autonomous exploration and self-correcting updates. Unlike sequential pipelines, AutoProf maintains a continuously evolving Research World Model implemented as a Knowledge Graph, capturing methods, benchmarks, limitations, and unexplored gaps as shared memory across agents. The framework introduces three contributions: first, structured gap discovery that decomposes methods into modules, evaluates them across benchmarks, and identifies module-level gaps; second, self-correcting discovery loops that analyze why modules succeed or fail, detect benchmark biases, and assess evaluation adequacy; third, self-improving development loops using cross-domain mechanism search to iteratively address failing components. All agents operate under a consensus mechanism where findings are validated before being committed to the shared model. The framework is model-agnostic, supports mainstream large language models, and scales elastically with token budget from lightweight exploration to full-scale investigation.
- Abstract(参考訳): 既存の自動研究システムは、状態のない線形パイプラインとして動作し、研究環境の永続的な理解を保たずに出力を生成する。
論文を逐次処理し、構造化されたギャップ分析のないアイデアを提案し、エージェントが互いの発見を検証または改善するためのメカニズムを欠いている。
私たちはAutoProf(Autonomous Professor)というマルチエージェントオーケストレーションフレームワークを紹介し、専門エージェントは、文献レビューからギャップ発見、メソッド開発、評価、ペーパーライティングまで、自律的な探索と自己修正更新を通じて、人的関心によって駆動されるエンドツーエンドのAI研究を監督する。
シーケンシャルパイプラインとは異なり、AutoProfは知識グラフとして実装された継続的な進化したリサーチワールドモデルを維持し、メソッド、ベンチマーク、制限、探索されていないギャップをエージェント間で共有メモリとしてキャプチャする。
第1に、メソッドをモジュールに分解し、ベンチマークで評価し、モジュールレベルのギャップを特定し、第2に、モジュールが成功したか失敗したかを分析し、ベンチマークバイアスを検出し、評価精度を評価し、第3に、クロスドメインメカニズムを使用して開発ループを自己改善し、失敗コンポーネントに反復的に対処する。
すべてのエージェントはコンセンサスメカニズムの下で動作し、結果が共有モデルにコミットする前に検証される。
フレームワークはモデルに依存しず、主流の大規模言語モデルをサポートし、軽量な探索から本格的な調査までトークン予算と弾力的にスケールする。
関連論文リスト
- Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces [0.0]
Agent Execution Record (AER) は構造化された推論プリミティブであり、すべてのステップで第一級クエリ可能なフィールドとしてインテント、観察、推論をキャプチャする。
AERが集団レベルの行動分析を可能にする方法を示す: 推論パターンマイニング、信頼度校正、クロスエージェント比較、モックリプレイによる反事実回帰テスト。
論文 参考訳(メタデータ) (2026-03-23T08:27:54Z) - Pitfalls in Evaluating Interpretability Agents [91.49742416116635]
我々は,実験を反復的に設計し,仮説を洗練するエージェントシステムを構築した。
我々の研究は、複雑な自動解釈可能性システムを評価する上での根本的な課題を実証している。
論文 参考訳(メタデータ) (2026-03-20T16:27:17Z) - Agentic AI in Remote Sensing: Foundations, Taxonomy, and Emerging Systems [9.388162021920206]
この調査は、リモートセンシングにおけるエージェントAIの総合的なレビューである。
単一エージェントのコピロとマルチエージェントのシステムを区別した統合分類を導入する。
評価を画素レベルの精度から軌跡認識推論の正確性に移行する新しいベンチマークをレビューする。
論文 参考訳(メタデータ) (2026-01-05T08:34:17Z) - Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey [92.71325249013535]
線形木探索はLarge Language Model (LLM) 研究の基盤となっている。
本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-11T03:29:18Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - System for systematic literature review using multiple AI agents: Concept and an empirical evaluation [3.453564255183234]
体系的文献レビュー(SLR)は証拠に基づく研究の基礎である。
本稿では,SLRの完全自動化を目的とした新しいマルチAIエージェントシステムを提案する。
包括性と精度を維持しつつ,従来のSLRに必要な時間と労力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。