論文の概要: REVERE: Reflective Evolving Research Engineer for Scientific Workflows
- arxiv url: http://arxiv.org/abs/2603.20667v1
- Date: Sat, 21 Mar 2026 05:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.027747
- Title: REVERE: Reflective Evolving Research Engineer for Scientific Workflows
- Title(参考訳): REVERE: 科学ワークフローのためのリフレクティブ進化研究エンジニア
- Authors: Balaji Dinesh Gangireddi, Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan,
- Abstract要約: 既存のプロンプト最適化技術は、動作を更新するための局所的な信号に依存しており、多くの場合、タスク全体にわたってパターンが繰り返され、一般化が貧弱になる。
我々は,グローバルトレーニングコンテキストから継続的に学習するフレームワークであるReflective Evolving Research Engineer (REVERE)を紹介する。
REVEREは、この反射的最適化フレームワークを通じて、SUPERの4.50%、ResearchCodeBenchの3.51%、ScienceAgentBenchの4.89%で、最先端の専門家による研究コーディングタスクの命令よりもパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 44.36828076189902
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.
- Abstract(参考訳): 既存のプロンプト最適化技術は、振る舞いを更新するために局所的な信号に依存しており、多くの場合、タスク全体にわたって広範に繰り返されるパターンを無視し、一般化が貧弱になる。
これらの制限は、異種リポジトリ、不特定環境、弱いフィードバックを含む研究コーディングワークフローで拡大され、公開コードベースから結果を再現することが確立された評価体制である。
我々は,Reflective Evolving Research Engineer (REVERE)を紹介した。このフレームワークは,Global Training Contextから継続的に学習し,クロスリポジトリ実行トラジェクトリにおける繰り返し発生する障害モードを認識し,再利用可能なヒューリスティックに蒸留し,システムプロンプト,タスクプロンプトテンプレート,累積的チートシートという3つの設定可能なフィールドにまたがるターゲット編集を実行する。
REVEREは、この反射的最適化フレームワークを通じて、SUPERの4.50%、ResearchCodeBenchの3.51%、ScienceAgentBenchの4.89%で、最先端の専門家による研究コーディングタスクの命令よりもパフォーマンスを向上させる。
これらの結果から,連続学習機構とグローバルメモリ統合機構を備えたエージェントは,時間とともにその能力を有意義に進化させることができることが示された。
関連論文リスト
- Trajectory-Informed Memory Generation for Self-Improving Agent Systems [4.933717407152962]
LLMを使用したエージェントは、実行経験から学び、将来のパフォーマンスを改善するという、永続的な課題に直面します。
本稿ではエージェント実行軌跡から実行可能な学習を自動的に抽出する新しいフレームワークを提案する。
本フレームワークは,実行パターンを理解し,前向きな構造化学習を抽出し,特定のタスクコンテキストに合わせたガイダンスを検索する。
論文 参考訳(メタデータ) (2026-03-11T09:54:09Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - Evaluating Novelty in AI-Generated Research Plans Using Multi-Workflow LLM Pipelines [1.3986052226424095]
本稿では, 反復的推論, 進化的探索, 分解を用いたエージェントシステムが, より斬新で実現可能な研究計画を創出できるかどうかを考察する。
我々は、リフレクションベースの反復リフレクション、サカナAI v2進化アルゴリズム、Googleコサイディストマルチエージェントフレームワーク、GPT Deep Research、Gemini3 Proマルチモーダルロングコンテキストパイプラインの5つの理由付けアーキテクチャをベンチマークした。
その結果, 創造性を犠牲にすることなく, 高い達成性を維持しつつ, 研究領域にまたがる様々なパフォーマンスが明らかとなった。
論文 参考訳(メタデータ) (2025-12-24T12:41:31Z) - RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback [87.97664892075811]
研究論文やリポジトリからの102タスクのベンチマークであるRECODE-Hを提案する。
構造化された命令、単体テスト、現実的な研究者とエージェントのコラボレーションを反映する5段階のフィードバック階層が含まれる。
フィードバックを反復的なコード生成に統合するフレームワークであるReCodeAgentも紹介します。
論文 参考訳(メタデータ) (2025-10-07T17:45:35Z) - SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion [34.41683042851225]
そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。
限られたコンテキストウィンドウにおいて、情報の多様性と代表性を最大化する。
我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。
論文 参考訳(メタデータ) (2025-08-13T11:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。