論文の概要: Assessing the Feasibility of Selective Instrumentation for Runtime Code Coverage in Large C++ Game Engines
- arxiv url: http://arxiv.org/abs/2601.16881v1
- Date: Fri, 23 Jan 2026 16:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.76403
- Title: Assessing the Feasibility of Selective Instrumentation for Runtime Code Coverage in Large C++ Game Engines
- Title(参考訳): 大規模C++ゲームエンジンにおける実行時コードカバレッジのための選択的インスツルメンテーションの可能性の評価
- Authors: Ian Gauk, Doriane Olewicki, Joshua Romoff, Cor-Paul Bezemer,
- Abstract要約: 我々は,textttC++で記述された大規模ゲームエンジンに適した,選択的なインスツルメンテーション手法を提案する。
当社のフレームワークは,産業用ゲームテストパイプラインに統合されており,開発者が変更に対するテストの即時カバレッジフィードバックを受け取ることができる。
我々の研究は、大きなtextttC++ゲームエンジンのコミットレベルまたはビルドレベルカバレッジは、最小限のオーバーヘッドで達成でき、テストの安定性を損なうことなく達成できることを示している。
- 参考スコア(独自算出の注目度): 6.693918778697565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code coverage is a valuable guide for testing, but in AAA games the overhead of instrumentation conflicts with strict performance requirements and can destabilize automated tests. We propose and assess a selective instrumentation approach tailored to large game engines written in \texttt{C++}, which reduces the scope of instrumentation while preserving relevant coverage data to developer commits. Our framework integrates into an industrial game testing pipeline, enabling developers to receive immediate coverage feedback on tests run against their changes. The compilation overhead of our approach is minimal, allowing instrumentation of over 2,000 commits before doubling build time. In performance evaluations, even the worst-case scenario maintains frame rates above 50\% of the non-instrumented baseline. Across two production test suites maintained by our industry partner, our framework caused no automated test failures, avoiding the instability observed under full instrumentation. Our work shows that commit-level or build-level coverage of large \texttt{C++} game engines can be achieved with minimal overhead and without compromising test stability.
- Abstract(参考訳): コードカバレッジはテストにとって貴重なガイドだが、AAAゲームでは、インスツルメンテーションのオーバーヘッドは厳格なパフォーマンス要件と矛盾し、自動テストの不安定化を可能にする。
本稿では,開発者コミットに関係のあるカバレッジデータを保存しながら,インスツルメンテーションの範囲を小さくする,大容量のゲームエンジンに適した選択型インスツルメンテーション手法を提案し,評価する。
当社のフレームワークは,産業用ゲームテストパイプラインに統合されており,開発者が変更に対するテストの即時カバレッジフィードバックを受け取ることができる。
このアプローチのコンパイルオーバーヘッドは最小限であり、ビルド時間を2倍にする前に2,000以上のコミットを計測できる。
性能評価では、最悪のシナリオでさえ、非構成ベースラインの50%以上をフレームレートで維持する。
業界パートナがメンテナンスしている2つの製品テストスイートを通じて、当社のフレームワークは自動テストの失敗を発生させませんでした。
我々の研究は、大規模な \texttt{C++} ゲームエンジンのコミットレベルまたはビルドレベルのカバレッジを最小限のオーバーヘッドで達成でき、テストの安定性を損なうことなく達成できることを示している。
関連論文リスト
- Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance [1.4341136505032424]
TAM-Evalは、3つのコアテストメンテナンスシナリオにわたるモデルパフォーマンスを評価するフレームワークである。
ベンチマークでは、Python、Java、Goプロジェクトのシナリオを自動的に抽出し、検証します。
我々は,自動ソフトウェアテストの今後の研究を支援するオープンソースフレームワークとして,TAM-Evalをリリースした。
論文 参考訳(メタデータ) (2026-01-26T07:47:22Z) - ToolGym: an Open-world Tool-using Environment for Scalable Agent Testing and Data Curation [42.479399507055454]
一般的な204のアプリにまたがって,571フォーマットの統一ツール上に構築された,オープンワールドのツール使用環境を紹介します。
これには、ロングホライゾンを合成するタスク生成エンジン、ワイルド制約付きマルチツール、ストレス-テストの堅牢性に割り込みと失敗を注入するステートコントローラが含まれる。
最先端のLLMの総合評価では、ツール計画と実行能力の相違、既存のLLMの弱点に続く制約、DeepSeek-v3.2の強靭さが明らかにされている。
論文 参考訳(メタデータ) (2026-01-09T21:59:31Z) - The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models [12.705802209782506]
SAGEは、グレーボックスゲーム環境用のセマンティックアウェア回帰テストフレームワークである。
テスト生成、メンテナンス、選択のコア課題に対処します。
バージョン更新に強い適応性を示しながら、実行コストを大幅に削減した優れたバグ検出を実現する。
論文 参考訳(メタデータ) (2025-11-29T17:09:18Z) - Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。
単体テストはテストケースの大部分を占め、しばしばスキーマ的である。
本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-07-18T11:23:17Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。