論文の概要: Theory Under Construction: Orchestrating Language Models for Research Software Where the Specification Evolves
- arxiv url: http://arxiv.org/abs/2604.27209v2
- Date: Fri, 01 May 2026 15:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:10.931123
- Title: Theory Under Construction: Orchestrating Language Models for Research Software Where the Specification Evolves
- Title(参考訳): 建設中の理論: 仕様が進化する研究ソフトウェアのための言語モデルのオーケストレーション
- Authors: Halley Young, Nikolaj Björner,
- Abstract要約: 大規模な言語モデルは、実質的なコードと研究テキストを生成することができるが、研究ソフトウェアプロジェクトは、どちらのアーティファクトも必要としない。
我々は,幻覚の蓄積とデシンクロナイゼーションという,LM固有の障害モードを2つ同定する。
本研究では,1つのワークスペース状態の座標として,アイデア,実装,評価,グラウンド,ペーパーライティングを編成する反復的プロンプトであるComet-Hを提案する。
- 参考スコア(独自算出の注目度): 1.0312968200748116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can now generate substantial code and draft research text, but research-software projects require more than either artifact alone. The mathematical thesis, executable system, benchmark surface, and public claims must mature together, yet often drift apart. We identify two LM-specific failure modes: hallucination accumulation, in which claims exceed what code or theory supports and unsupported assertions propagate across sessions; and desynchronization, in which code, theory, or the model's own world model fall out of alignment. We propose Comet-H, an iterative prompt automaton that orchestrates ideation, implementation, evaluation, grounding, and paper-writing as coupled coordinates of a single workspace state. At each step, a controller selects the next prompt by scoring it against what the workspace currently lacks, carries unfinished follow-up work forward with a half-life, and re-checks the paper and README against the code and benchmarks whenever documentation changes. We frame prompt selection as a small contextual bandit problem over prompt families, with prompts as arms, workspace deficits as context, and a hand-weighted linear score. This transparent scorer, paired with a fading record of unfinished work, bounds long-horizon follow-ups, requires no learned policy, and makes each prompt choice legible from the workspace. We created a portfolio of 46 research-software repositories across two dozen domains. We study A3 in depth, a Python static-analysis tool built entirely within the loop, which reaches (F1 = 0.768) on a 90-case benchmark, compared with a next-best baseline of 0.364. Across approximately 400 commits, we find that audit-and-contraction passes dominate the later phases of every successful trajectory.
- Abstract(参考訳): 大規模な言語モデルは、実質的なコードを生成することができ、研究テキストをドラフトすることができるが、リサーチ・ソフトウェアプロジェクトには、どちらのアーティファクトも必要としない。
数学的理論、実行可能なシステム、ベンチマークサーフェス、パブリッククレームは共に成熟しなければならないが、しばしば崩壊する。
2つのLM固有の障害モードを識別する:幻覚の蓄積、主張がどのコードや理論がどのアサーションをサポートするかを超えること、主張がセッション間で伝播すること、デシンクロナイゼーション、コード、理論、またはモデル自身の世界モデルが整列から外れることである。
本研究では,1つのワークスペース状態の協調座標として,アイデア,実装,評価,グラウンド化,ペーパーライティングを編成する反復的プロンプトオートマトンであるComet-Hを提案する。
各ステップでは、コントローラが次のプロンプトを選択し、ワークスペースが現在欠落しているものに対してスコアを付け、半減期で未完成のフォローアップ作業を実行し、ドキュメントの変更時にコードとベンチマークに対して紙とREADMEを再チェックします。
我々は、プロンプトファミリーに対する小さな文脈的バンディット問題として、プロンプトをアームとして、ワークスペースをコンテキストとして、手持ちの線形スコアとして、プロンプトをプロンプトする。
この透明なスコアラーは、未完成の作業の記録と組み合わせて、長い水平のフォローアップを束縛し、学習されたポリシーを必要としない。
2ダースのドメインにわたる46のリサーチソフトウェアリポジトリのポートフォリオを作成しました。
我々は、90ケースのベンチマークで(F1 = 0.768)到達する、完全にループ内に構築されたPythonの静的解析ツールであるA3を、次の最良ベースラインである0.364と比較して詳細に調査する。
約400のコミットで、オーディション・アンド・コントラクションパスが、成功したすべての軌道の後半フェーズを支配していることがわかった。
関連論文リスト
- Enhancing Understandability and Transparency of Research Software: Tracing Research to Code [1.4499356176178066]
論文と実装ソフトウェアを取り入れたLCMベースの自動化ツールを提案し,研究アイデアとコード中の位置のトレースマッピングを生成する。
最初の実験では、ツールが非常に有用なマッピングを生成できることが示されている。
論文 参考訳(メタデータ) (2026-04-12T19:53:41Z) - Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis [0.0]
本稿では,Qwen 2.5-14B-Instructの言語モデルであるDatarus-R1-14Bを提案する。
Datarusは、独立した問合せペアではなく、推論ステップ、コード実行、エラートレース、自己補正、最終的な結論を含む完全な分析トラジェクトリに基づいて訓練されている。
論文 参考訳(メタデータ) (2025-08-18T21:58:18Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [70.04746094652653]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。
PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。
次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文 参考訳(メタデータ) (2025-04-24T01:57:01Z) - Stack Trace Deduplication: Faster, More Accurately, and in More Realistic Scenarios [42.75968139336785]
大規模なソフトウェアシステムでは、エラーが発生した時に人による記述が書かれた完全なバグレポートは存在しないことが多い。
この場合、開発者はスタックトレース、すなわち一連の関数呼び出しに頼り、エラーを引き起こした。
近年の研究では、これに対する強力な深層学習に基づくアプローチが提案されているが、実際のカテゴリーから独立して評価され、比較されている。
論文 参考訳(メタデータ) (2024-12-19T12:48:17Z) - Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。