論文の概要: Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators
- arxiv url: http://arxiv.org/abs/2605.22343v1
- Date: Thu, 21 May 2026 11:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.2304
- Title: Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators
- Title(参考訳): Sibyl-AutoResearch: 自律的な研究は、紙の発電機ではなく、自己進化的な試行錯誤を必要とする
- Authors: Chengcheng Wang, Qinhua Xie, Wei He, Jianyuan Guo, Shiqi Wang, Chang Xu,
- Abstract要約: 我々はScientific Trial-and-Error Harnessesを中心に構築された自己進化型AutoResearchフレームワークであるSibyl-AutoResearchを紹介した。
ハーネスは、エージェントが有界なトライアルを実行し、肯定的な結果と否定的な結果を保持し、後続の計画、検証、クレームスコープ、スケジューリング、批判、執筆、修復に教訓を導いてくれる。
SIBYLはファイルベースの自律的な研究システムで、状態、役割、メモリ、ゲート、アーティファクトトレースを公開して変換パスを検査する。
- 参考スコア(独自算出の注目度): 37.075000666622074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous research systems increasingly make the scientific workflow executable: agents can propose ideas, run code, inspect results, and draft papers. But executable workflows do not by themselves produce research judgment. We analyze where current systems lose trial experience: weak evidence becomes prose, pilot signals become broad claims, memory remains textual, and recurring process failures do not change later behavior. We introduce Sibyl-AutoResearch, a self-evolving AutoResearch framework built around Scientific Trial-and-Error Harnesses. A harness lets agents run bounded trials, preserve positive and negative outcomes, and route lessons into later planning, validation, claim scope, scheduling, critique, writing, and harness repair. We formalize this through two auditable conversion units: trial-to-behavior conversion, which links trial signals to later research actions, and trial-to-harness-behavior conversion, which links recurring process failures to system updates. We implement the framework in SIBYL, a file-backed autonomous research system that exposes the state, roles, memory, gates, and artifact traces needed to inspect these conversion paths. A retrospective audit identifies eight high-confidence conversion events, with a median latency of one iteration and a maximum latency of three iterations. A recovered-failure registry further shows how five naturally occurring failure classes, including duplicate results, stale numbers, and unsupported statistics, were blocked, downgraded, or routed into later repair. These traces do not establish a comparative performance claim; they show that the proposed conversion units are recoverable from realistic autonomous-research workspaces. The SIBYL framework and system are available at https://github.com/Sibyl-Research-Team/AutoResearch-SibylSystem.
- Abstract(参考訳): エージェントはアイデアを提案し、コードを実行し、結果を検査し、ドラフト論文を作成できる。
しかし、実行可能なワークフローはそれ自体で研究判断を下さない。
弱い証拠は散文になり、パイロット信号は広範な主張となり、記憶はテキストのままであり、繰り返し発生するプロセスの失敗は後の行動を変えない。
我々はScientific Trial-and-Error Harnessesを中心に構築された自己進化型AutoResearchフレームワークであるSibyl-AutoResearchを紹介した。
ハーネスは、エージェントが有界なトライアルを実行し、肯定的な結果と否定的な結果を保持し、後続の計画、検証、クレームスコープ、スケジューリング、批評、書き込み、ハーネスの修復に教訓を導く。
本稿では,2つの監査可能な変換ユニット,すなわち,後の研究行動にトライアル信号をリンクするトライアル・ツー・行動変換と,繰り返し発生するプロセス障害とシステム更新をリンクするトライアル・ツー・ハーネス・行動変換を形式化する。
SIBYLはファイルベースの自律的な研究システムで、状態、役割、メモリ、ゲート、アーティファクトトレースを公開して変換パスを検査する。
レトロスペクティブ監査では、8つの高信頼の変換イベントを特定し、中央値のレイテンシは1イテレーション、最大値のレイテンシは3イテレーションである。
回復障害レジストリはさらに、重複した結果、古い番号、サポートされていない統計を含む5つの自然発生障害クラスがブロックされた、ダウングレードされた、あるいは後の修復にルーティングされたかを示している。
これらのトレースは比較性能クレームを確立しておらず、提案した変換ユニットが現実的な自律検索ワークスペースから復元可能であることを示している。
SIBYLフレームワークとシステムはhttps://github.com/Sibyl-Research-Team/AutoResearch-SibylSystemで利用可能である。
関連論文リスト
- AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration [175.32768568927688]
提案するAutoResearchClawは,5つのメカニズムに基づいて構築されたマルチエージェント自律型研究パイプラインである。
25トピックの実験ステージベンチマークであるARC-Benchでは、AutoResearchClawがAI Scientist v2を54.7%上回っている。
論文 参考訳(メタデータ) (2026-05-19T15:49:51Z) - AI for Auto-Research: Roadmap & User Guide [107.0834449839233]
研究ライフサイクル全体にわたってAIをエンドツーエンドに分析する。
我々は、信頼できる援助と信頼できない自律性の間に、鋭くステージに依存した境界を特定できる。
障害モードを排除するのではなく、より大きな自動化が不明瞭であることが示されています。
論文 参考訳(メタデータ) (2026-05-18T17:08:26Z) - ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration [10.076972559007116]
ARIS(Auto-Research-in-sleep)は、自律的な研究のためのオープンソースの研究ハーネスである。
ARISは、クロスモデル対外コラボレーションを通じて機械学習の研究を調整する。
論文 参考訳(メタデータ) (2026-05-04T18:10:15Z) - RESCORE: LLM-Driven Simulation Recovery in Control Systems Research Papers [18.24843021913362]
制御システムの研究論文から数値シミュレーションを再構築することは、未特定パラメータやあいまいな実装の詳細によってしばしば妨げられる。
本稿では,論文の再現性を忠実に再現する実行可能なコードを生成する自動システムの課題である,シミュレーション検索性に関する論文の課題を定義する。
本稿では,3つのLLMエージェントフレームワークであるRESCORE,Analyzer,Coder,Verifierを提案する。
提案手法は,40.7%のベンチマークインスタンスに対して,タスクコヒーレントなシミュレーションを正常に再現し,シングルパス生成よりも優れていた。
論文 参考訳(メタデータ) (2026-04-06T00:13:14Z) - AI-Assisted Unit Test Writing and Test-Driven Code Refactoring: A Case Study [0.0]
本稿では、自動単体テスト生成とその後の安全な反復に符号化モデルを用いるケーススタディを提案する。
数週間ではなく数時間で16,000行近い信頼性の高い単体テストを生成し、クリティカルモジュールで最大78%のブランチカバレッジを実現し、大規模なイテレーションでリグレッションリスクを著しく低減しました。
論文 参考訳(メタデータ) (2026-04-03T15:54:43Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Automating Computational Reproducibility in Social Science: Comparing Prompt-Based and Agent-Based Approaches [0.3637090866781549]
計算研究の再現は、提供されたデータで元のコードを再実行するのと同じくらい単純であるとしばしば考えられている。
本研究では,大規模な言語モデルとAIエージェントが,そのような障害の診断と修復を自動化できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-09T11:59:59Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。