論文の概要: Co-Located Tests, Better AI Code: How Test Syntax Structure Affects Foundation Model Code Generation
- arxiv url: http://arxiv.org/abs/2604.19826v1
- Date: Mon, 20 Apr 2026 14:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.570261
- Title: Co-Located Tests, Better AI Code: How Test Syntax Structure Affects Foundation Model Code Generation
- Title(参考訳): AIコードのより優れたコロケーションテスト:テストの構文構造がファンデーションモデルコード生成にどのように影響するか
- Authors: Éric Jacopin,
- Abstract要約: 開発者がどのようにコードをインラインで実装するか、あるいは別のブロックで構築するかは、伝統的にテスト哲学の問題であった。
決定性,保存性,正確性を測定する3次元評価フレームワークSEGAを用いて,この選択がAIコード生成品質に影響を及ぼすかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.7310043452300737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding assistants increasingly generate code alongside tests. How developers structure test code, whether inline with the implementation or in separate blocks, has traditionally been a matter of testing philosophy. We investigate whether this choice affects AI code generation quality. We conduct a large-scale empirical study (830+ generated files, 12 models, 3 providers) using SEGA, a three-dimensional evaluation framework measuring Determinism, Preservation, and Correctness. Comparing inline test syntax (Python doctests) against separated test syntax (Rust #[test] blocks) on a d-ary heap implementation, we find that: (1) inline tests yield near-perfect preservation (100%) and correctness (92-100%) across all models; (2) separated tests expose stark model-tier gaps (0-100% correctness) and independence between preservation and correctness; (3) model behavior evolves across generations, and notably one model breaks the test suppression pattern of its three predecessors; (4) mechanistic analysis on 7 open-source architectures (6 transformers and a gated-linear Recurrent Neural Network (RNN)) reveals inline test markers receive 2.8-4.4$\times$ stronger attention in 5/7 models, with causal validation via knockout and steering experiments on the 4 code-specialized transformers and RWKV-6; the co-location mechanism extends to a non-transformer architecture, suggesting the design recommendation is robust to future architectural shifts. In the Foundation Model era, test syntax structure is a software design concern: co-locating tests with implementation code produces measurably better AI-generated code. This arxiv long version includes appendices that further qualify the effect as bounded by both model capability and programming language.
- Abstract(参考訳): AIコーディングアシスタントは、テストと並行してコードを生成する。
開発者がどのようにコードをインラインで実装するか、あるいは別のブロックで構築するかは、伝統的にテスト哲学の問題であった。
この選択がAIコード生成の品質に影響を及ぼすかどうかを検討する。
本研究は,SEGAを用いた大規模実験(830以上のファイル,12のモデル,3のプロバイダ)を行い,決定性,保存性,正確性を測定する3次元評価フレームワークを提案する。
インラインテスト構文(Python doctests)をd-aryヒープ実装で分離したテスト構文(Rust #[test] blocks)と比較すると,(1)インラインテストがほぼ完全に近い保存(100%)と正しさ(92-100%)をすべてのモデルで得ること,(2)分離テストがスタークモデル階層のギャップ(0-100%の正しさ)と保存と正しさの独立性を露呈すること,(3)モデル動作が世代によって進化すること,(3)モデル動作が3つの前任者のテスト抑制パターンを破ること,(4)オープンソースアーキテクチャ(6つのトランスフォーマとゲート線形リカレントニューラルネットワーク(RNN))のメカニスティック解析により,インラインテストマーカーが5/7でより強い注意を払っていること,4.6~4.4$の値がカスタライズされたこと,4.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6 .6.6.7.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6 .6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6 .6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6 .6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6 .6.6.6.6.6.6.6.
ファウンデーションモデルの時代において、テスト構文構造はソフトウェア設計上の問題である。
このarxivの長いバージョンには、モデル能力とプログラミング言語の両方で制限された効果を更に評価する付属物が含まれている。
関連論文リスト
- ZeroCoder: Can LLMs Improve Code Generation Without Ground-Truth Supervision? [13.984583399745157]
RLVR(Reinforcement Learning with Verifiable Rewards)は、実行ベースのフィードバックを通じて改善する強力なパラダイムである。
既存の作業では、自己生成テストを使って報酬を土台にしようとしたが、差別的テストの欠如は、テスト生成に対するモデルの準最適性能による影響を制限した。
我々はZeroCoderについて紹介する。ZeroCoderは、自己生成されたコード-テストインタラクションから実行フィードバックを使用して、CoderとTesterを共同でトレーニングする完全なラベルなしの共進化フレームワークである。
論文 参考訳(メタデータ) (2026-04-09T06:24:54Z) - Consistency Meets Verification: Enhancing Test Generation Quality in Large Language Models Without Ground-Truth Solutions [1.9196411948992402]
ConVerTestは、既存のコード実装を必要とせず、信頼性の高いテストを合成するための、新しい2段階のパイプラインである。
BIGCODEBENCHとLESS BASIC PYTHON PROBLEMSベンチマークの実験では、ConVerTestはテストの妥当性、ラインカバレッジ、突然変異スコアを最大39%、28%、18%改善している。
論文 参考訳(メタデータ) (2026-02-11T04:40:38Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。
既存のテスト生成方法は静的データセットに依存している。
我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文 参考訳(メタデータ) (2025-10-16T12:49:25Z) - Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。
単体テストはテストケースの大部分を占め、しばしばスキーマ的である。
本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-07-18T11:23:17Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。