論文の概要: Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision
- arxiv url: http://arxiv.org/abs/2508.20729v1
- Date: Thu, 28 Aug 2025 12:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.392818
- Title: Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision
- Title(参考訳): Re4:リライト、解像度、レビュー、リビジョンを備えた科学計算エージェント
- Authors: Ao Cheng, Lei Zhang, Guowei He,
- Abstract要約: 大規模言語モデル(LLM)は、生成人工知能の活発で有望な分野として機能する。
本研究では,科学計算における代表的問題を解くための新しいエージェント・フレームワークを構築する。
提案するエージェントは,「リライト・レゾリューション・リビジョン・リビジョン」論理的連鎖を取り入れ,協調的かつ対話的な方法で統合されている。
- 参考スコア(独自算出の注目度): 4.55391222496256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) serve as an active and promising field of generative artificial intelligence and have demonstrated abilities to perform complex tasks in multiple domains, including mathematical and scientific reasoning. In this work, we construct a novel agent framework for solving representative problems in scientific computing. The proposed agent, incorporating a "rewriting-resolution-review-revision" logical chain via three reasoning LLMs (functioning as the Consultant, Reviewer, and Programmer, respectively), is integrated in a collaborative and interactive manner. The Consultant module endows the agent with knowledge transfer capabilities to link problems to professional domain insights, thereby rewriting problem descriptions through text augmentation. The Programmer module is responsible for generating and executing well-structured code to deliver the problem resolution. The Reviewer module equips the agent with the capacity for self-debugging and self-refinement through interactive feedback with code runtime outputs. By leveraging the end-to-end review mechanism, the executable code provided by the Programmer attains the iterative revision. A comprehensive evaluation is conducted on the performance of the proposed agent framework in solving PDEs, ill-conditioned linear systems, and data-driven physical analysis problems. Compared to single-model, this collaborative framework significantly improves the bug-free code generation rate and reduces the occurrence of non-physical solutions, thereby establishing a highly reliable framework for autonomous code generation based on natural language descriptions. The review mechanism improved the average execution success (bug-free code and non-NaN solutions) rate of the latest reasoning models. In summary, our agent framework establishes automatic code generation and review as a promising scientific computing paradigm.
- Abstract(参考訳): 大規模言語モデル(LLM)は、生成人工知能の活発で有望な分野として機能し、数学的および科学的推論を含む複数の領域で複雑なタスクを実行する能力を示した。
本研究では,科学計算における代表的問題を解くための新しいエージェント・フレームワークを構築する。
提案するエージェントは,LLM(Consultant,Reviewer,Programmerとして機能する)を3つの理由により「リライト・レゾリューション・リビジョン・リビジョン」論理鎖を組み込んで,協調的かつインタラクティブな方法で統合する。
Consultantモジュールは、エージェントに知識伝達能力を与え、問題と専門的なドメインインサイトをリンクし、テキスト拡張を通じて問題記述を書き換える。
Programmerモジュールは、問題解決を提供するために、よく構造化されたコードの生成と実行を担当します。
Reviewerモジュールは、コードランタイム出力との対話的なフィードバックを通じて、エージェントに自己デバッグと自己リファインメントの能力を提供する。
エンドツーエンドのレビューメカニズムを活用することで、Programmerが提供する実行可能なコードが反復的なリビジョンを達成します。
PDE, 不条件線形システム, およびデータ駆動物理解析問題の解法において, 提案するエージェント・フレームワークの性能について総合評価を行った。
単一モデルと比較して、この協調フレームワークはバグフリーコード生成率を大幅に改善し、非物理的ソリューションの発生を低減し、自然言語記述に基づく自律コード生成のための信頼性の高いフレームワークを確立する。
レビューメカニズムは、最新の推論モデルの平均実行成功率(バグフリーコードと非NaNソリューション)を改善した。
まとめると、我々のエージェントフレームワークは、有望な科学計算パラダイムとして、自動コード生成とレビューを確立します。
関連論文リスト
- AI Agentic Programming: A Survey of Techniques, Challenges, and Opportunities [4.678921535956218]
AIエージェントプログラミングは、大規模言語モデル(LLM)が外部ツールを自律的に計画し、実行し、相互作用する新興パラダイムである。
この調査はAIエージェントプログラミングの総合的かつタイムリーなレビューを提供する。
論文 参考訳(メタデータ) (2025-08-15T00:14:31Z) - MSARL: Decoupling Reasoning and Tool Use with Multi-Small-Agent Reinforcement Learning [1.974921946982281]
ツールの使用から推論を明示的に分離するフレームワークであるMSARLを提案する。
MSARLでは、Reasoning Agentが問題とツール呼び出しを分解し、複数のツールエージェントが特定の外部ツールを専門にしている。
コード実行による数学的問題解決において、MSARLは単一エージェントベースラインに対する推論安定性と最終回答精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-12T12:10:53Z) - Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [18.129031749321058]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。
広く採用されているにもかかわらず、これらのエージェントの内部決定プロセスはほとんど解明されていない。
本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-06-23T16:34:52Z) - Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。
しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。
我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文 参考訳(メタデータ) (2025-05-30T08:46:23Z) - ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。
コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。
我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2025-02-26T18:55:42Z) - ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - CodeAgent: Autonomous Communicative Agents for Code Review [12.163258651539236]
コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるツールを紹介する。
CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。
結果はCodeAgentの有効性を実証し、コードレビュー自動化の新たな最先端に寄与している。
論文 参考訳(メタデータ) (2024-02-03T14:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。