論文の概要: ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2605.03042v1
- Date: Mon, 04 May 2026 18:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.588
- Title: ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
- Title(参考訳): ARIS: 敵対的マルチエージェントコラボレーションによる自律的な研究
- Authors: Ruofeng Yang, Yongcan Li, Shuai Li,
- Abstract要約: ARIS(Auto-Research-in-sleep)は、自律的な研究のためのオープンソースの研究ハーネスである。
ARISは、クロスモデル対外コラボレーションを通じて機械学習の研究を調整する。
- 参考スコア(独自算出の注目度): 10.076972559007116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes ARIS (Auto-Research-in-sleep), an open-source research harness for autonomous research, including its architecture, assurance mechanisms, and early deployment experience. The performance of agent systems built on LLMs depends on both the model weights and the harness around them, which governs what information to store, retrieve, and present to the model. For long-horizon research workflows, the central failure mode is not a visible breakdown but a plausible unsupported success: a long-running agent can produce claims whose evidential support is incomplete, misreported, or silently inherited from the executor's framing. Therefore, we present ARIS as a research harness that coordinates machine-learning research workflows through cross-model adversarial collaboration as a default configuration: an executor model drives forward progress while a reviewer from a different model family is recommended to critique intermediate artifacts and request revisions. ARIS has three architectural layers. The execution layer provides more than 65 reusable Markdown-defined skills, model integrations via MCP, a persistent research wiki for iterative reuse of prior findings, and deterministic figure generation. The orchestration layer coordinates five end-to-end workflows with adjustable effort settings and configurable routing to reviewer models. The assurance layer includes a three-stage process for checking whether experimental claims are supported by evidence: integrity verification, result-to-claim mapping, and claim auditing that cross-checks manuscript statements against the claim ledger and raw evidence, as well as a five-pass scientific-editing pipeline, mathematical-proof checks, and visual inspection of the rendered PDF. A prototype self-improvement loop records research traces and proposes harness improvements that are adopted only after reviewer approval.
- Abstract(参考訳): 本稿では,ARIS(Auto-Research-in-sleep)について述べる。ARIS(Auto-Research-in-sleep)は,アーキテクチャ,保証機構,早期展開経験など,自律的な研究のためのオープンソースの研究ハーネスである。
LLM上に構築されたエージェントシステムの性能は、モデルウェイトと周辺ハーネスの両方に依存し、モデルに格納、取得、提示する情報を管理する。
長期にわたる研究ワークフローでは、中央の障害モードは目に見えるブレークダウンではなく、もっとも支持できない成功である: 長期にわたるエージェントは、明らかなサポートが不完全で、報告されていない、あるいは実行者のフレーミングから静かに受け継がれているクレームを生成できる。
そこで,我々は,機械学習研究ワークフローのコーディネートを標準構成として,機械学習研究ワークフローのコーディネートとして提案する。エグゼキュータモデルが前進を推し進める一方で,別のモデルファミリーのレビュアーが中間成果物や要求修正を批判するために推奨される。
ARISには3つのアーキテクチャ層がある。
実行層は65以上の再利用可能なMarkdown定義スキル、MPPによるモデル統合、事前発見の反復的な再利用のための永続的な研究ウィキ、決定論的フィギュア生成を提供する。
オーケストレーション層は5つのエンドツーエンドワークフローを調整可能な作業設定とレビュアモデルへの設定可能なルーティングで調整する。
保証層は、実験的なクレームがエビデンスによって支持されているかどうかを確認するための3段階のプロセスを含む: 完全性検証、結果から評価までのマッピング、クレーム監査、クレーム台帳と生のエビデンスに対して原稿のステートメントを相互にチェックするクレーム監査、および5パスの科学編集パイプライン、数学的に耐性のあるチェック、レンダリングされたPDFの視覚検査。
自己改善ループのプロトタイプは、研究の痕跡を記録し、レビュアー承認後のみ採用されるハーネスの改善を提案する。
関連論文リスト
- AgentSim: A Platform for Verifiable Agent-Trace Simulation [3.2058241360543254]
AgentSimは、RAGエージェントをシミュレートするオープンソースプラットフォームである。
これは、任意のドキュメントコレクションに対するエージェント推論の検証可能な段階的なトレースを生成する。
マルチモデル検証パイプラインとアクティブなHuman-in-the-loopプロセスを組み合わせる。
論文 参考訳(メタデータ) (2026-04-29T13:19:38Z) - The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。
通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文 参考訳(メタデータ) (2026-04-27T16:23:09Z) - AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model [1.14219428942199]
既存の自動研究システムは、ステートレスでリニアなパイプラインとして動作する。
マルチエージェントオーケストレーションフレームワークである textbfAI-Supervisor を提案する。
エージェントは、人間の関心によって駆動されるエンドツーエンドのAI研究の監督を提供する。
論文 参考訳(メタデータ) (2026-03-25T15:16:51Z) - FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - System for systematic literature review using multiple AI agents: Concept and an empirical evaluation [3.453564255183234]
体系的文献レビュー(SLR)は証拠に基づく研究の基礎である。
本稿では,SLRの完全自動化を目的とした新しいマルチAIエージェントシステムを提案する。
包括性と精度を維持しつつ,従来のSLRに必要な時間と労力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。