論文の概要: AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2603.03233v1
- Date: Tue, 03 Mar 2026 18:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.924201
- Title: AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework
- Title(参考訳): ベイズ対応マルチエージェントフレームワークを用いたAI-for-Scienceローコードプラットフォーム
- Authors: Zihang Zeng, Jiaquan Zhang, Pengze Li, Yuan Qi, Xi Chen,
- Abstract要約: 大規模言語モデル(LLM)は、科学的コード生成を自動化する可能性を示しているが、信頼性、エラーの伝播、評価において課題に直面している。
我々は,AI for Science(AI4S)タスクを低符号プラットフォーム(LCP)の形で特別に設計したベイズ対向型マルチエージェントフレームワークを提案する。
ユーザ入力を実行可能な計画と適応テストケースに構造化するタスクマネージャ、候補ソリューションを生成するコードジェネレータ、包括的なフィードバックを提供する評価器である。
- 参考スコア(独自算出の注目度): 4.782965804438204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate potentials for automating scientific code generation but face challenges in reliability, error propagation in multi-agent workflows, and evaluation in domains with ill-defined success metrics. We present a Bayesian adversarial multi-agent framework specifically designed for AI for Science (AI4S) tasks in the form of a Low-code Platform (LCP). Three LLM-based agents are coordinated under the Bayesian framework: a Task Manager that structures user inputs into actionable plans and adaptive test cases, a Code Generator that produces candidate solutions, and an Evaluator providing comprehensive feedback. The framework employs an adversarial loop where the Task Manager iteratively refines test cases to challenge the Code Generator, while prompt distributions are dynamically updated using Bayesian principles by integrating code quality metrics: functional correctness, structural alignment, and static analysis. This co-optimization of tests and code reduces dependence on LLM reliability and addresses evaluation uncertainty inherent to scientific tasks. LCP also streamlines human-AI collaboration by translating non-expert prompts into domain-specific requirements, bypassing the need for manual prompt engineering by practitioners without coding backgrounds. Benchmark evaluations demonstrate LCP's effectiveness in generating robust code while minimizing error propagation. The proposed platform is also tested on an Earth Science cross-disciplinary task and demonstrates strong reliability, outperforming competing models.
- Abstract(参考訳): LLM(Large Language Models)は、科学的コード生成を自動化する可能性を示しているが、信頼性、マルチエージェントワークフローにおけるエラーの伝播、未定義の成功指標を持つドメインの評価といった課題に直面している。
本稿では,AI for Science(AI4S)タスクをLow-code Platform(LCP)の形で特別に設計したベイズ対応マルチエージェントフレームワークを提案する。
ユーザ入力を実行可能な計画と適応テストケースに構造化するタスクマネージャ、候補ソリューションを生成するコードジェネレータ、包括的なフィードバックを提供する評価器である。
このフレームワークでは、タスクマネージャがテストケースを反復的に洗練してコードジェネレータに挑戦するのに対して、迅速な配布は、コード品質メトリクス(機能的正確性、構造的アライメント、静的解析)を統合することで、ベイズ原理を使って動的に更新される。
このテストとコードの協調最適化は、LCMの信頼性への依存を減らし、科学的タスクに固有の不確実性評価に対処する。
LCPはまた、非専門家のプロンプトをドメイン固有の要件に翻訳することで、バックグラウンドをコーディングせずに実践者による手動プロンプトエンジニアリングの必要性を回避し、人間とAIのコラボレーションを合理化している。
ベンチマーク評価は、誤りの伝播を最小限に抑えながらロバストなコードを生成するLCPの有効性を示す。
提案するプラットフォームは、アースサイエンスのクロスディシプリナ・タスクでもテストされており、強力な信頼性を示し、競合するモデルよりも優れています。
関連論文リスト
- Adaptive Confidence Gating in Multi-Agent Collaboration for Efficient and Optimized Code Generation [13.994379905835716]
DebateCoderは、Small Language Models(SLM)の推論能力を改善するために設計されたマルチエージェント協調フレームワークである。
ユーザエージェント(A_UA)、技術エージェント(A_TA)、品質保証エージェント(A_QA)の3つのエージェントで構成されたロールプレイングプロトコルを使用する。
また、精度と推論効率のバランスをとるために95%の閾値を持つAdaptive Confidence Gatingメカニズムも備えている。
論文 参考訳(メタデータ) (2026-01-29T09:48:15Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Toward Automated and Trustworthy Scientific Analysis and Visualization with LLM-Generated Code [6.068120728706316]
大規模言語モデル(LLM)は、自然言語記述からコードを生成することで、有望なソリューションを提供する。
実際の研究課題を反映したドメインインスパイアされたプロンプトのベンチマークスイートを構築した。
人間の介入なしには, LLM生成コードの信頼性は限られている。
論文 参考訳(メタデータ) (2025-11-26T21:27:03Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision [4.55391222496256]
大規模言語モデル(LLM)は、生成人工知能の活発で有望な分野として機能する。
本研究では,科学計算における代表的問題を解くための新しいエージェント・フレームワークを構築する。
提案するエージェントは,「リライト・レゾリューション・リビジョン・リビジョン」論理的連鎖を取り入れ,協調的かつ対話的な方法で統合されている。
論文 参考訳(メタデータ) (2025-08-28T12:50:48Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Benchmarking LLM-based Agents for Single-cell Omics Analysis [6.915378212190715]
AIエージェントは、適応的な計画、実行可能なコード生成、トレース可能な決定、リアルタイム知識融合を可能にする、パラダイムシフトを提供する。
本稿では,シングルセルオミクス解析におけるエージェント能力の厳格な評価を行うためのベンチマーク評価システムを提案する。
論文 参考訳(メタデータ) (2025-08-16T04:26:18Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。