論文の概要: Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software
- arxiv url: http://arxiv.org/abs/2605.30353v1
- Date: Thu, 28 May 2026 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.765371
- Title: Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software
- Title(参考訳): 物理がすべて必要か? 科学ソフトウェアにおける物理学者によるAI開発を事例として
- Authors: Nhat-Minh Nguyen,
- Abstract要約: 物理学者は、CLAX-PTを構築するために、12の作業日と57のセッションでAIコーディングエージェントを監督した。
エージェントは、託宣試験を繰り返すことで、自律的に10を解決した。
予防されたオラクル検出ができなかった3つは共通の性質を共有しており、症状の減少を根本原因の解決法として扱った。
- 参考スコア(独自算出の注目度): 0.304585143845864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist's domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent's output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]
- Abstract(参考訳): AIエージェントはツールか、共著者か、研究者か?
我々は、12日間にわたってAIコーディングエージェント(Claude Code、Sonnet、Opusモデル)を監督し、57セッションにわたってCLAX-PTを構築する物理学者(N=1$): JAXで微分可能な1ループ摂動理論モジュール(CLAX-PT)を構築する。
我々は介入レベルによって15の監視イベントを文書化し分類した。
エージェントは、託宣試験を繰り返すことで、自律的に10を解決した。
専門は物理学者の専門知識。
予防されたオラクル検出ができなかった3つは共通の性質を共有しており、症状の減少を根本原因の解決法として扱った。
57セッションのうち33セッションは、目標とする物理を表現できず、再考を促してもCLASS-PTの分岐選択を再評価することができなかったコードアーキテクチャ内の係数を調整するのに費やされた。
別々に、エージェントは校正された修正を行い、全てのオラクルテストに合格したが、理論の量と一致せず、他の宇宙論で間違った値を予測した。
フェッジファクタは、同じセッションでキャッチされ、置き換えられた。
3つの監督慣行は、オラクルテストが見逃したことをキャッチするために重要であった: フィデューシャルキャリブレーションを超えて多様なパラメータポイントでテストすること、セッション間の探索が行き詰まりを表面化した共有チェンジログ、非物理的数値パッチに対する明確なルール。
この場合、モデル能力ではなく監督設計は、エージェントの出力が信頼できるかどうかを判断した。
ギャップを埋めるには、特定の構造内で最適化するのではなく、アーキテクチャ上の代替案を提案するエージェントが必要であり、予測的妥当性と説明的正しさを区別する必要がある。
【橋渡し】
関連論文リスト
- The Deterministic Horizon: Impossibility Results as Design Specifications for Trustworthy AI Systems [0.0]
この論文は、好奇心から不合理性の結果を設計規則に変える。
そのフラッグシップとなる結果は、アーキテクチャだけで設定された精度の高い天井を証明している。
同じ引数がサブフィールドにまたがって再キャストされる。
論文 参考訳(メタデータ) (2026-05-21T20:48:35Z) - AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with Physics-Aware AI Agents [1.7590081165362783]
我々は、計算流体力学のためのオープンソースのAI科学者であるAI CFD Scientistを紹介する。
文献に基づくアイデア、検証された実行、視覚に基づく物理検証、ソースコードの修正、図形による記述を単一の検査可能なワークフローで行うのは、これが初めてである。
論文 参考訳(メタデータ) (2026-05-07T17:27:23Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - The Specification as Quality Gate: Three Hypotheses on AI-Assisted Code Review [0.0]
AIが生成するコード品質の問題に対する業界の主要な反応は、AIレビュアーをデプロイすることだ。
本稿では,実行可能な仕様が存在しない場合,この応答は構造的に円形であると主張している。
論文 参考訳(メタデータ) (2026-03-26T11:59:05Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。