論文の概要: Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision
- arxiv url: http://arxiv.org/abs/2508.20729v1
- Date: Thu, 28 Aug 2025 12:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.392818
- Title: Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision
- Title(参考訳): Re4:リライト、解像度、レビュー、リビジョンを備えた科学計算エージェント
- Authors: Ao Cheng, Lei Zhang, Guowei He,
- Abstract要約: 大規模言語モデル(LLM)は、生成人工知能の活発で有望な分野として機能する。
本研究では,科学計算における代表的問題を解くための新しいエージェント・フレームワークを構築する。
提案するエージェントは,「リライト・レゾリューション・リビジョン・リビジョン」論理的連鎖を取り入れ,協調的かつ対話的な方法で統合されている。
- 参考スコア(独自算出の注目度): 4.55391222496256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) serve as an active and promising field of generative artificial intelligence and have demonstrated abilities to perform complex tasks in multiple domains, including mathematical and scientific reasoning. In this work, we construct a novel agent framework for solving representative problems in scientific computing. The proposed agent, incorporating a "rewriting-resolution-review-revision" logical chain via three reasoning LLMs (functioning as the Consultant, Reviewer, and Programmer, respectively), is integrated in a collaborative and interactive manner. The Consultant module endows the agent with knowledge transfer capabilities to link problems to professional domain insights, thereby rewriting problem descriptions through text augmentation. The Programmer module is responsible for generating and executing well-structured code to deliver the problem resolution. The Reviewer module equips the agent with the capacity for self-debugging and self-refinement through interactive feedback with code runtime outputs. By leveraging the end-to-end review mechanism, the executable code provided by the Programmer attains the iterative revision. A comprehensive evaluation is conducted on the performance of the proposed agent framework in solving PDEs, ill-conditioned linear systems, and data-driven physical analysis problems. Compared to single-model, this collaborative framework significantly improves the bug-free code generation rate and reduces the occurrence of non-physical solutions, thereby establishing a highly reliable framework for autonomous code generation based on natural language descriptions. The review mechanism improved the average execution success (bug-free code and non-NaN solutions) rate of the latest reasoning models. In summary, our agent framework establishes automatic code generation and review as a promising scientific computing paradigm.
- Abstract(参考訳): 大規模言語モデル(LLM)は、生成人工知能の活発で有望な分野として機能し、数学的および科学的推論を含む複数の領域で複雑なタスクを実行する能力を示した。
本研究では,科学計算における代表的問題を解くための新しいエージェント・フレームワークを構築する。
提案するエージェントは,LLM(Consultant,Reviewer,Programmerとして機能する)を3つの理由により「リライト・レゾリューション・リビジョン・リビジョン」論理鎖を組み込んで,協調的かつインタラクティブな方法で統合する。
Consultantモジュールは、エージェントに知識伝達能力を与え、問題と専門的なドメインインサイトをリンクし、テキスト拡張を通じて問題記述を書き換える。
Programmerモジュールは、問題解決を提供するために、よく構造化されたコードの生成と実行を担当します。
Reviewerモジュールは、コードランタイム出力との対話的なフィードバックを通じて、エージェントに自己デバッグと自己リファインメントの能力を提供する。
エンドツーエンドのレビューメカニズムを活用することで、Programmerが提供する実行可能なコードが反復的なリビジョンを達成します。
PDE, 不条件線形システム, およびデータ駆動物理解析問題の解法において, 提案するエージェント・フレームワークの性能について総合評価を行った。
単一モデルと比較して、この協調フレームワークはバグフリーコード生成率を大幅に改善し、非物理的ソリューションの発生を低減し、自然言語記述に基づく自律コード生成のための信頼性の高いフレームワークを確立する。
レビューメカニズムは、最新の推論モデルの平均実行成功率(バグフリーコードと非NaNソリューション)を改善した。
まとめると、我々のエージェントフレームワークは、有望な科学計算パラダイムとして、自動コード生成とレビューを確立します。
関連論文リスト
- AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework [4.782965804438204]
大規模言語モデル(LLM)は、科学的コード生成を自動化する可能性を示しているが、信頼性、エラーの伝播、評価において課題に直面している。
我々は,AI for Science(AI4S)タスクを低符号プラットフォーム(LCP)の形で特別に設計したベイズ対向型マルチエージェントフレームワークを提案する。
ユーザ入力を実行可能な計画と適応テストケースに構造化するタスクマネージャ、候補ソリューションを生成するコードジェネレータ、包括的なフィードバックを提供する評価器である。
論文 参考訳(メタデータ) (2026-03-03T18:25:00Z) - El Agente Gráfico: Structured Execution Graphs for Scientific Agents [7.47895130442454]
タイプセーフな実行環境内に,大規模言語モデル(LLM)による意思決定を組み込んだ単一エージェントフレームワークであるEl Agente Grficoを紹介する。
我々のアプローチの中心は、科学概念の構造化された抽象化と、型付きPythonオブジェクトとして計算状態を表すオブジェクトグラフマッパーである。
大学レベルの量子化学タスクのスイートにまたがって,自動ベンチマークフレームワークを開発することにより,システムの評価を行う。
論文 参考訳(メタデータ) (2026-02-19T23:47:05Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Agentic Software Issue Resolution with Large Language Models: A Survey [9.583478737157531]
ソフトウェア問題解決は,ユーザが提供する自然言語記述に基づいて,ソフトウェアリポジトリの現実的な問題に対処することを目的としている。
推論と生成能力の大規模言語モデル(LLM)は、自動ソフトウェア問題解決において大きな進歩をもたらした。
近年,LSMベースのエージェントシステムがソフトウェア問題解決の主流となっている。
論文 参考訳(メタデータ) (2025-12-24T08:05:10Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - RefactorCoderQA: Benchmarking LLMs for Multi-Domain Coding Question Solutions in Cloud and Edge Deployment [20.416910591388618]
本稿では,Large Language Models (LLM) の性能を評価するためのベンチマークであるRefactorCoderQAを紹介する。
我々の微調整モデルであるRefactorCoder-MoEは最先端のパフォーマンスを実現し、オープンソースと商用のベースラインを76.84%で上回りました。
論文 参考訳(メタデータ) (2025-09-12T17:44:22Z) - AI Agentic Programming: A Survey of Techniques, Challenges, and Opportunities [4.678921535956218]
AIエージェントプログラミングは、大規模言語モデル(LLM)が外部ツールを自律的に計画し、実行し、相互作用する新興パラダイムである。
この調査はAIエージェントプログラミングの総合的かつタイムリーなレビューを提供する。
論文 参考訳(メタデータ) (2025-08-15T00:14:31Z) - MSARL: Decoupling Reasoning and Tool Use with Multi-Small-Agent Reinforcement Learning [1.974921946982281]
ツールの使用から推論を明示的に分離するフレームワークであるMSARLを提案する。
MSARLでは、Reasoning Agentが問題とツール呼び出しを分解し、複数のツールエージェントが特定の外部ツールを専門にしている。
コード実行による数学的問題解決において、MSARLは単一エージェントベースラインに対する推論安定性と最終回答精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-12T12:10:53Z) - Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [18.129031749321058]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。
広く採用されているにもかかわらず、これらのエージェントの内部決定プロセスはほとんど解明されていない。
本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-06-23T16:34:52Z) - Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。
しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。
我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文 参考訳(メタデータ) (2025-05-30T08:46:23Z) - ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。
コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。
我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2025-02-26T18:55:42Z) - ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - CodeAgent: Autonomous Communicative Agents for Code Review [12.163258651539236]
コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるツールを紹介する。
CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。
結果はCodeAgentの有効性を実証し、コードレビュー自動化の新たな最先端に寄与している。
論文 参考訳(メタデータ) (2024-02-03T14:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。