論文の概要: PARC: An Autonomous Self-Reflective Coding Agent for Robust Execution of Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2512.03549v1
- Date: Wed, 03 Dec 2025 08:15:10 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:57:40.339805
- Title: PARC: An Autonomous Self-Reflective Coding Agent for Robust Execution of Long-Horizon Tasks
- Title(参考訳): PARC: 長期タスクのロバスト実行のための自律的自己反射型符号化エージェント
- Authors: Yuki Orimo, Iori Kurata, Hodaka Mori, Ryuhei Okuno, Ryohto Sawada, Daisuke Okanohara,
- Abstract要約: 我々は長軸計算タスクの自律実行のための符号化エージェントである PARC を紹介する。
我々は計算科学とデータサイエンスのタスク間でPARCを評価する。
その結果、階層型マルチエージェントシステムと自己評価と自己フィードバックの統合の可能性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce PARC, a coding agent for the autonomous and robust execution of long-horizon computational tasks. PARC is built on a hierarchical multi-agent architecture incorporating task planning, execution, and a mechanism that evaluates its own actions and their outcomes from an independent context and provides feedback, namely self-assessment and self-feedback. This design enables PARC to detect and correct high-level strategic errors and sustain progress without human intervention. We evaluate PARC across computational science and data science tasks. In materials science, it autonomously reproduces key results from studies on lithium-ion conduction and alloy segregation. In particular, it coordinates dozens of parallel simulation tasks, each requiring roughly 43 hours of computation, managing orchestration, monitoring, and error correction end-to-end. In Kaggle-based experiments, starting from minimal natural-language instructions, PARC conducts data analysis and implements search strategies, producing solutions competitive with human-engineered baselines. These results highlight the potential of integrating a hierarchical multi-agent system with self-assessment and self-feedback to enable AI systems capable of independent, large-scale scientific and analytical work.
- Abstract(参考訳): 我々は、長期計算タスクの自律的かつ堅牢な実行のための符号化エージェントであるPARCを紹介する。
PARCはタスク計画、実行、および独立したコンテキストから自身の行動と結果を評価し、フィードバック、すなわち自己評価と自己フィードバックを提供するメカニズムを組み込んだ階層的なマルチエージェントアーキテクチャ上に構築されている。
この設計により、PARCは人間の介入なしに高いレベルの戦略的誤りを検出し、修正し、進歩を維持することができる。
我々は計算科学とデータサイエンスのタスク間でPARCを評価する。
材料科学において、リチウムイオン伝導と合金分離の研究から重要な結果を自律的に再現する。
特に、数十の並列シミュレーションタスクをコーディネートし、それぞれが約43時間の計算、オーケストレーション、監視、エラー修正をエンドツーエンドで行う必要がある。
最小限の自然言語命令から始まるKaggleベースの実験では、PARCはデータ分析を行い、検索戦略を実装し、人間工学のベースラインと競合するソリューションを生み出している。
これらの結果は、独立した大規模科学的、分析的な作業が可能なAIシステムを実現するために、階層的なマルチエージェントシステムと自己評価と自己フィードバックを統合する可能性を強調している。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - ParaCook: On Time-Efficient Planning for Multi-Agent Systems [62.471032881396496]
大規模言語モデル(LLM)は、長期の現実世界のタスクを計画するための強力な推論能力を示す。
時間効率の協調計画のためのベンチマークであるParaCookを紹介する。
論文 参考訳(メタデータ) (2025-10-13T16:47:07Z) - AutoLabs: Cognitive Multi-Agent Systems with Self-Correction for Autonomous Chemical Experimentation [0.10999592665107412]
AutoLabsは、自然言語命令を自動で実行可能なプロトコルに変換するように設計された、自己修正型マルチエージェントアーキテクチャである。
複雑化に関する5つのベンチマーク実験を特徴とする総合評価フレームワークを提案する。
以上の結果から,エージェント推論能力が成功の最も重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2025-09-30T01:51:46Z) - Reinforcement Learning Foundations for Deep Research Systems: A Survey [31.57262766437479]
この調査は、深層研究システムのRL基盤に初めて焦点をあてたものである。
i)データ合成とキュレーション、(ii)安定度、サンプル効率、長期コンテキストハンドリング、報酬と信用設計、多目的最適化、マルチモーダル統合に関するエージェント研究のためのRL法である。
我々は、繰り返しパターン、表面インフラストラクチャボトルネックを蒸留し、RLを用いた堅牢で透明な深層研究エージェントのトレーニングのための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-08T14:27:23Z) - Benchmarking LLM-based Agents for Single-cell Omics Analysis [6.915378212190715]
AIエージェントは、適応的な計画、実行可能なコード生成、トレース可能な決定、リアルタイム知識融合を可能にする、パラダイムシフトを提供する。
本稿では,シングルセルオミクス解析におけるエージェント能力の厳格な評価を行うためのベンチマーク評価システムを提案する。
論文 参考訳(メタデータ) (2025-08-16T04:26:18Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。