論文の概要: SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.00560v1
- Date: Sat, 29 Nov 2025 17:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.295903
- Title: SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models
- Title(参考訳): SAGE: 大規模言語モデルを用いたセマンティックなグレーボックスゲーム回帰テスト
- Authors: Jinyu Cai, Jialong Li, Nianyu Li, Zhenyu Mao, Mingyue Zhang, Kenji Tei,
- Abstract要約: SAGEは、グレーボックスゲーム環境用のセマンティックアウェア回帰テストフレームワークである。
テスト生成、メンテナンス、選択のコア課題に対処します。
バージョン更新に強い適応性を示しながら、実行コストを大幅に削減した優れたバグ検出を実現する。
- 参考スコア(独自算出の注目度): 12.705802209782506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid iteration cycles of modern live-service games make regression testing indispensable for maintaining quality and stability. However, existing regression testing approaches face critical limitations, especially in common gray-box settings where full source code access is unavailable: they heavily rely on manual effort for test case construction, struggle to maintain growing suites plagued by redundancy, and lack efficient mechanisms for prioritizing relevant tests. These challenges result in excessive testing costs, limited automation, and insufficient bug detection. To address these issues, we propose SAGE, a semanticaware regression testing framework for gray-box game environments. SAGE systematically addresses the core challenges of test generation, maintenance, and selection. It employs LLM-guided reinforcement learning for efficient, goal-oriented exploration to automatically generate a diverse foundational test suite. Subsequently, it applies a semantic-based multi-objective optimization to refine this suite into a compact, high-value subset by balancing cost, coverage, and rarity. Finally, it leverages LLM-based semantic analysis of update logs to prioritize test cases most relevant to version changes, enabling efficient adaptation across iterations. We evaluate SAGE on two representative environments, Overcooked Plus and Minecraft, comparing against both automated baselines and human-recorded test cases. Across all environments, SAGE achieves superior bug detection with significantly lower execution cost, while demonstrating strong adaptability to version updates.
- Abstract(参考訳): 現代のライブサービスゲームの迅速な反復サイクルは、品質と安定性を維持するために回帰テストが不可欠である。
しかし、既存の回帰テストアプローチは、特に完全なソースコードアクセスが利用できない一般的なグレーボックス設定において、重要な制限に直面している。
これらの課題は、過剰なテストコスト、自動化の制限、バグ検出の不十分をもたらす。
これらの問題に対処するため、グレーボックスゲーム環境のためのセマンティックアウェア回帰テストフレームワークであるSAGEを提案する。
SAGEは、テスト生成、メンテナンス、選択のコア課題を体系的に解決する。
LLM誘導強化学習を用いて、多種多様な基礎テストスイートを自動生成する。
その後、コスト、カバレッジ、および希薄さのバランスをとることで、このスイートをコンパクトで高価値なサブセットに洗練するために、セマンティックベースの多目的最適化を適用する。
最後に、LCMベースの更新ログのセマンティック分析を活用して、バージョン変更に関連するテストケースを優先順位付けし、イテレーション間の効率的な適応を可能にする。
我々は,Overcooked PlusとMinecraftの2つの代表的な環境でSAGEを評価し,自動ベースラインと人間記録テストケースを比較した。
すべての環境において、SAGEはより優れたバグ検出を実現し、実行コストを大幅に削減し、バージョン更新に強い適応性を示す。
関連論文リスト
- BOSQTGEN: Breaking the Sound Barrier in Test Generation [3.052470294814771]
本稿では,新しいブラックボックスとAPIテスト生成ツールであるBOSQTGENを紹介する。
BOSQTGENは、API仕様をプリミティブに分解するための新しいアプローチ、LLMを使用してコヒーレントなインタラクションを提案し、これらの値を効率的にサンプリングするためにテストを採用する。
結果として得られたBOSQTGENシステムは、ベンチマークで平均82%のコードカバレッジを達成するが、しばしば以前の最先端システムよりも20%以上増加する。
論文 参考訳(メタデータ) (2025-10-22T17:11:30Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - LLMShot: Reducing snapshot testing maintenance via LLMs [0.5218155982819203]
スナップショットテストは、現代のソフトウェア開発におけるUIバリデーションの重要なテクニックとして登場した。
本稿では、VLM(Vision-Language Models)を利用して、スナップショットテストの失敗を自動的に解析する新しいフレームワークであるLLMShotを紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:47:19Z) - Regression Testing Optimization for ROS-based Autonomous Systems: A Comprehensive Review of Techniques [6.978850097048969]
ROSASに適した回帰テスト最適化手法を体系的にレビューする最初の総合的な調査を行う。
我々は122の代表的な研究を回帰テストケースの優先順位付け、最小化、選択方法に分類した。
ROSASの回帰テストに特有の大きな課題として,頻繁なシステム修正に対応するテストを効果的に優先順位付けすること,冗長テストを効率的に最小化すること,影響のあるテストケースを正確に選択することの難しさを挙げる。
論文 参考訳(メタデータ) (2025-06-19T07:43:36Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。