論文の概要: No Test Cases, No Problem: Distillation-Driven Code Generation for Scientific Workflows
- arxiv url: http://arxiv.org/abs/2604.23106v1
- Date: Sat, 25 Apr 2026 02:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.158866
- Title: No Test Cases, No Problem: Distillation-Driven Code Generation for Scientific Workflows
- Title(参考訳): テストケースも問題もない - 科学的ワークフローのための蒸留駆動コード生成
- Authors: Siddeshwar Raghavan, Tanwi Mallick,
- Abstract要約: 我々は、I/Oの監督なしに、科学コード生成のためのトレーニング不要なマルチエージェントフレームワークMOSAICを紹介する。
実行フィードバックの代わりに、MOSAICは、ドメイン固有の例と構造化された問題分解による生成を基盤とする、学生-教師の知識蒸留フレームワークを採用している。
SciCodeベンチマークの実験によると、MOSAICは軽量モデルに依存しながら既存のアプローチよりも精度、実行可能性、数値的精度を向上させる。
- 参考スコア(独自算出の注目度): 5.470408942595905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multi-agent Large Language Model (LLM) frameworks for code generation typically use execution feedback and improve iteratively using Input/Output (I/O) test cases. However, this does not work for scientific workflows, where I/O test cases do not exist, and generating them requires solving the very problem at hand. To address this, we introduce MOSAIC, a training-free multi-agent framework for scientific code generation without I/O supervision. Instead of execution feedback, MOSAIC employs a student-teacher knowledge distillation framework that grounds generation through domain-specific examples and structured problem decomposition. To further mitigate hallucinations across chained subproblems, we introduce a Consolidated Context Window (CCW) for maintaining consistent reasoning across agents. Experiments on the SciCode benchmark show that MOSAIC improves accuracy, executability, and numerical precision over existing approaches while relying on lightweight models.
- Abstract(参考訳): コード生成のための既存のマルチエージェント大規模言語モデル(LLM)フレームワークは通常、実行フィードバックを使用し、入出力(I/O)テストケースを使用して反復的に改善する。
しかし、I/Oテストケースが存在しない科学的なワークフローではうまくいきません。
この問題を解決するために,I/Oの監督なしに,科学コード生成のためのトレーニング不要なマルチエージェントフレームワークMOSAICを紹介する。
実行フィードバックの代わりに、MOSAICは、ドメイン固有の例と構造化された問題分解による生成を基盤とする、学生-教師の知識蒸留フレームワークを採用している。
連鎖したサブプロブレム間の幻覚をさらに緩和するために、エージェント間の一貫した推論を維持するための統合コンテキストウィンドウ(CCW)を導入する。
SciCodeベンチマークの実験によると、MOSAICは軽量モデルに依存しながら既存のアプローチよりも精度、実行可能性、数値的精度を向上させる。
関連論文リスト
- AdverMCTS: Combating Pseudo-Correctness in Code Generation via Adversarial Monte Carlo Tree Search [43.74932760107145]
AdverMCTSはモンテカルロ木探索フレームワークで、コード検索とアクティブな脆弱性発見を結合することで擬似的正確性に対処する。
本稿では,AdverMCTSが最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-04-12T04:15:31Z) - BACE: LLM-based Code Generation through Bayesian Anchored Co-Evolution of Code and Test Populations [0.9668407688201359]
我々は、ベイズ的共進化過程として合成を再構成するフレームワークであるBACEを紹介する。
BACEはプロプライエタリモデルとオープンウェイトな小言語モデルの両方で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-30T16:40:11Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework [4.782965804438204]
大規模言語モデル(LLM)は、科学的コード生成を自動化する可能性を示しているが、信頼性、エラーの伝播、評価において課題に直面している。
我々は,AI for Science(AI4S)タスクを低符号プラットフォーム(LCP)の形で特別に設計したベイズ対向型マルチエージェントフレームワークを提案する。
ユーザ入力を実行可能な計画と適応テストケースに構造化するタスクマネージャ、候補ソリューションを生成するコードジェネレータ、包括的なフィードバックを提供する評価器である。
論文 参考訳(メタデータ) (2026-03-03T18:25:00Z) - MOSAIC: Multi-agent Orchestration for Task-Intelligent Scientific Coding [5.470408942595905]
MOSAICは訓練のないフレームワークで、特別に設計されたエージェントで、生徒-教師のパラダイム内で、自己表現し、合理性を作り、コードを作り、デバッグする。
我々はMOSAICを科学的符号化ベンチマークで評価し、我々の特殊エージェントフレームワークが既存の手法よりも精度、堅牢性、解釈可能性で優れていることを示した。
論文 参考訳(メタデータ) (2025-10-09T20:35:23Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。