論文の概要: Chain of Unit-Physics: A Primitive-Centric Approach to Scientific Code Synthesis
- arxiv url: http://arxiv.org/abs/2512.01010v1
- Date: Sun, 30 Nov 2025 18:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.538357
- Title: Chain of Unit-Physics: A Primitive-Centric Approach to Scientific Code Synthesis
- Title(参考訳): 単位物理の連鎖:科学コード合成への原始的中心的アプローチ
- Authors: Vansh Sharma, Venkat Raman,
- Abstract要約: 第一原理(またはプリミティブ)中心のマルチエージェントシステムで、人間の知識をコード生成を明示的に制約する単体物理学テストとしてコード化します。
データセットやモデルが進化するにつれて、ゼロショットコードの精度は向上するが、しかしながら、単位-物理フレームワークの連鎖は、科学的なコードの基本となる第一原理の分析を埋め込むことによってさらに進んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agentic large language models are proposed as autonomous code generators for scientific computing, yet their reliability in high-stakes problems remains unclear. Developing computational scientific software from natural-language queries remains challenging broadly due to (a) sparse representation of domain codes during training and (b) the limited feasibility of RLHF with a small expert community. To address these limitations, this work conceptualizes an inverse approach to code design, embodied in the Chain of Unit-Physics framework: a first-principles (or primitives)-centric, multi-agent system in which human expert knowledge is encoded as unit-physics tests that explicitly constrain code generation. The framework is evaluated on a nontrivial combustion task, used here as a representative benchmark for scientific problem with realistic physical constraints. Closed-weight systems and code-focused agentic variants fail to produce correct end-to-end solvers, despite tool and web access, exhibiting four recurrent error classes: interface (syntax/API) hallucinations, overconfident assumptions, numerical/physical incoherence, and configuration fragility. Open-weight models with chain-of-thought (CoT) decoding reduce interface errors but still yield incorrect solutions. On the benchmark task, the proposed framework converges within 5-6 iterations, matches the human-expert implementation (mean error of $3.1\times10^{-3}$ %), with a $\sim$33.4 % faster runtime and a $\sim$30 % efficient memory usage at a cost comparable to mid-sized commercial APIs, yielding a practical template for physics-grounded scientific code generation. As datasets and models evolve, zero-shot code accuracy will improve; however, the Chain of Unit-Physics framework goes further by embedding first-principles analysis that is foundational to scientific codes.
- Abstract(参考訳): エージェント型大規模言語モデルは、科学計算のための自律型コード生成器として提案されているが、その信頼性は未定である。
自然言語クエリによる計算科学ソフトウェアの開発は、いまだに幅広い課題を抱えている。
(a)訓練中及び訓練中のドメインコードの疎らな表現
(b)RLHFが小規模な専門家コミュニティに限定可能であること。
これらの制限に対処するために、この研究は、コード設計の逆アプローチを概念化し、コード生成を明示的に制約する単体物理テストとして人間の知識がコード化される第一原理(またはプリミティブ)中心のマルチエージェントシステムである、単体物理フレームワークの連鎖に具体化している。
このフレームワークは非自明な燃焼タスクで評価され、現実的な物理的制約を伴う科学的問題の代表的なベンチマークとしてここで使用される。
クローズドウェイトシステムとコード中心のエージェント変種は、ツールとWebアクセスにもかかわらず、正しいエンドツーエンドの解法を生成することができず、繰り返し発生する4つのエラークラス:インタフェース(構文/API)幻覚、過信的な仮定、数値的/物理的不整合、構成上の脆弱性を示す。
チェーン・オブ・シンクレット(CoT)デコードによるオープンウェイトモデルでは、インターフェースエラーは低減されるが、誤った解が得られる。
ベンチマークタスクでは、提案されたフレームワークは5~6イテレーション以内に収束し、人間-専門家による実装(平均誤差は3.1\times10^{-3}$ %)と、$\sim$33.4%、$\sim$30 %の効率的なメモリ使用率と、中規模の商用APIに匹敵するコストで一致し、物理地上の科学コード生成のための実用的なテンプレートを生成する。
データセットやモデルが進化するにつれて、ゼロショットコードの精度は向上するが、しかしながら、単位-物理フレームワークの連鎖は、科学的なコードの基本となる第一原理の分析を埋め込むことによってさらに進んでいる。
関連論文リスト
- Teaching Language Models to Reason with Tools [73.21700643314917]
emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。
CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
論文 参考訳(メタデータ) (2025-10-23T08:41:44Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - Architectures for Heterogeneous Quantum Error Correction Codes [13.488578754808676]
不均一なアーキテクチャは、普遍論理計算への明確な経路を提供する。
本研究では,アシラバスを用いてコード間データ移動のためのサーフェスコードとグロスコードを統合することを提案する。
アルゴリズムを特定の論理誤差率で実行する場合、物理量子ビットの最大6.42倍の減少を示す。
論文 参考訳(メタデータ) (2024-11-05T15:49:02Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Physics-enhanced deep surrogates for partial differential equations [30.731686639510517]
本稿では, 複雑な物理系のための高速サロゲートモデル開発に向けて, 物理強化ディープサロゲート(PEDS)アプローチを提案する。
具体的には,低忠実で説明可能な物理シミュレータとニューラルネットワークジェネレータの組み合わせを提案する。
論文 参考訳(メタデータ) (2021-11-10T18:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。