論文の概要: SciNav: A General Agent Framework for Scientific Coding Tasks
- arxiv url: http://arxiv.org/abs/2603.20256v1
- Date: Wed, 11 Mar 2026 11:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.941916
- Title: SciNav: A General Agent Framework for Scientific Coding Tasks
- Title(参考訳): SciNav: 科学的コーディングタスクのための汎用エージェントフレームワーク
- Authors: Tianshu Zhang, Huan Sun,
- Abstract要約: 科学的コーディングタスクのためのエージェントフレームワークSciNav(Scientific Navigator)を紹介する。
我々のフレームワークは、制約付き検索予算の下で動作するように設計されている。
2つのベンチマークで異なるタイプのタスクにまたがってエージェントの有効性を示す。
- 参考スコア(独自算出の注目度): 12.136493066748391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous science agents built on large language models (LLMs) are increasingly used to generate hypotheses, design experiments, and produce reports. However, prior work mainly targets open-ended scientific problems with subjective outputs that are difficult to evaluate. Scientific coding benchmarks, by contrast, provide executable outputs for objective assessment. Existing approaches remain engineering-driven pipelines, revealing the need for structured, end-to-end science agent frameworks for scientific coding tasks. We address this gap by focusing on scientific coding tasks, where evaluation can be made rigorously, and introducing an agent framework SciNav (Scientific Navigator) that enables more effective solution exploration. Our framework is designed to operate under constrained search budgets, moving beyond reliance on pre-defined success metrics and prolonged search cycles. Inspired by findings that comparative judgments often reveal finer-grained quality differences and therefore provide greater discriminative power than absolute scoring, our framework leverages pairwise relative judgments within a tree search process to select top-K promising solution branches, prune low-potential ones, and progressively narrow down the solution candidates on the selected branches guided by relative comparisons. We demonstrate our agent's effectiveness across different types of tasks on two benchmarks. Experiments show that SciNav significantly outperforms direct prompting and prior agents like OpenHands and Self-Debug across different base models, task types, and difficulty levels, and exceeds different frontier comparators such as random selection and LLM absolute scoring. These results confirm the strength of our agent design and highlight the effectiveness of relative judgment-guided top-K search for high-quality scientific coding, marking a step toward more practical science agents.
- Abstract(参考訳): 大規模言語モデル(LLM)上に構築された自律科学エージェントは、仮説の生成、実験の設計、レポートの作成にますます利用されている。
しかし、先行研究は主に、評価が難しい主観的なアウトプットを持つオープンエンドの科学的問題をターゲットにしている。
対照的に、科学的コーディングベンチマークは客観的評価のために実行可能な出力を提供する。
既存のアプローチはエンジニアリング駆動のパイプラインのままであり、科学的コーディングタスクのための構造化されたエンドツーエンドの科学エージェントフレームワークの必要性を明らかにしている。
我々は、科学的コーディングタスクに焦点をあて、評価を厳格に行うことができ、より効果的な解探索を可能にするエージェントフレームワークSciNav(Scientific Navigator)を導入することで、このギャップに対処する。
我々のフレームワークは、事前定義された成功基準と長期の検索サイクルに依存しない、制約付き検索予算の下で運用するために設計されている。
そこで,本フレームワークは,木探索プロセス内の相互相対的判断を利用して,トップK有望な解枝,プルーン低電位の解枝を選択し,相対比較によって導かれる選択枝の解候補を段階的に絞り込む。
2つのベンチマークで異なるタイプのタスクにまたがってエージェントの有効性を示す。
実験の結果、SciNavは、OpenHandsやSelf-Debugのような直接プロンプトや先行エージェントを、さまざまなベースモデル、タスクタイプ、難易度で大幅に上回り、ランダムセレクションやLDM絶対スコアといった異なるフロンティアコンパレータを超えていることがわかった。
これらの結果は, エージェント設計の強みを確認し, 高品質な科学的符号化のための相対的判断誘導トップK探索の有効性を強調し, より実用的な科学エージェントへの一歩を踏み出した。
関連論文リスト
- AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework [4.782965804438204]
大規模言語モデル(LLM)は、科学的コード生成を自動化する可能性を示しているが、信頼性、エラーの伝播、評価において課題に直面している。
我々は,AI for Science(AI4S)タスクを低符号プラットフォーム(LCP)の形で特別に設計したベイズ対向型マルチエージェントフレームワークを提案する。
ユーザ入力を実行可能な計画と適応テストケースに構造化するタスクマネージャ、候補ソリューションを生成するコードジェネレータ、包括的なフィードバックを提供する評価器である。
論文 参考訳(メタデータ) (2026-03-03T18:25:00Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents [49.67355440164857]
AIRS-Benchは、最先端の機械学習論文から得られた20のタスクからなるスイートである。
Airs-Benchタスクは、研究ライフサイクル全体のエージェント能力を評価する。
本稿では,AIRS-Benchタスク定義と評価コードをオープンソースとして公開し,自律科学研究のさらなる発展を促す。
論文 参考訳(メタデータ) (2026-02-06T16:45:02Z) - HeurekaBench: A Benchmarking Framework for AI Co-scientist [2.206319727896241]
HeurekaBenchは、実験データセットに対する探索的でオープンな研究質問を伴うベンチマークを作成するためのフレームワークである。
単細胞生物学のフレームワークをインスタンス化し、Sc-HeurekaBenchベンチマークを取得し、最先端の単細胞エージェントと比較する。
批判モジュールを追加することで、オープンソースLLMエージェントの不正な応答を最大22%改善し、クローズドソースエージェントとのギャップを埋めることができる。
論文 参考訳(メタデータ) (2026-01-04T22:16:42Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - OAgents: An Empirical Study of Building Effective Agents [46.50371876218872]
キーエージェントコンポーネントにおける一般的な設計選択の影響を,公平かつ厳密な方法で検討する。
この結果に基づいて,新たな基盤エージェントフレームワークであるOAgentsをオープンソースとして開発しています。
論文 参考訳(メタデータ) (2025-06-17T17:59:02Z) - Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。