Fugu-MT 論文翻訳(概要): SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models

論文の概要: SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models

arxiv url: http://arxiv.org/abs/2512.00560v1
Date: Sat, 29 Nov 2025 17:09:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-02 19:46:34.295903
Title: SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models
Title（参考訳）: SAGE: 大規模言語モデルを用いたセマンティックなグレーボックスゲーム回帰テスト
Authors: Jinyu Cai, Jialong Li, Nianyu Li, Zhenyu Mao, Mingyue Zhang, Kenji Tei,
Abstract要約: SAGEは、グレーボックスゲーム環境用のセマンティックアウェア回帰テストフレームワークである。テスト生成、メンテナンス、選択のコア課題に対処します。バージョン更新に強い適応性を示しながら、実行コストを大幅に削減した優れたバグ検出を実現する。
参考スコア（独自算出の注目度）: 12.705802209782506
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The rapid iteration cycles of modern live-service games make regression testing indispensable for maintaining quality and stability. However, existing regression testing approaches face critical limitations, especially in common gray-box settings where full source code access is unavailable: they heavily rely on manual effort for test case construction, struggle to maintain growing suites plagued by redundancy, and lack efficient mechanisms for prioritizing relevant tests. These challenges result in excessive testing costs, limited automation, and insufficient bug detection. To address these issues, we propose SAGE, a semanticaware regression testing framework for gray-box game environments. SAGE systematically addresses the core challenges of test generation, maintenance, and selection. It employs LLM-guided reinforcement learning for efficient, goal-oriented exploration to automatically generate a diverse foundational test suite. Subsequently, it applies a semantic-based multi-objective optimization to refine this suite into a compact, high-value subset by balancing cost, coverage, and rarity. Finally, it leverages LLM-based semantic analysis of update logs to prioritize test cases most relevant to version changes, enabling efficient adaptation across iterations. We evaluate SAGE on two representative environments, Overcooked Plus and Minecraft, comparing against both automated baselines and human-recorded test cases. Across all environments, SAGE achieves superior bug detection with significantly lower execution cost, while demonstrating strong adaptability to version updates.
Abstract（参考訳）: 現代のライブサービスゲームの迅速な反復サイクルは、品質と安定性を維持するために回帰テストが不可欠である。しかし、既存の回帰テストアプローチは、特に完全なソースコードアクセスが利用できない一般的なグレーボックス設定において、重要な制限に直面している。これらの課題は、過剰なテストコスト、自動化の制限、バグ検出の不十分をもたらす。これらの問題に対処するため、グレーボックスゲーム環境のためのセマンティックアウェア回帰テストフレームワークであるSAGEを提案する。 SAGEは、テスト生成、メンテナンス、選択のコア課題を体系的に解決する。 LLM誘導強化学習を用いて、多種多様な基礎テストスイートを自動生成する。その後、コスト、カバレッジ、および希薄さのバランスをとることで、このスイートをコンパクトで高価値なサブセットに洗練するために、セマンティックベースの多目的最適化を適用する。最後に、LCMベースの更新ログのセマンティック分析を活用して、バージョン変更に関連するテストケースを優先順位付けし、イテレーション間の効率的な適応を可能にする。我々は,Overcooked PlusとMinecraftの2つの代表的な環境でSAGEを評価し,自動ベースラインと人間記録テストケースを比較した。すべての環境において、SAGEはより優れたバグ検出を実現し、実行コストを大幅に削減し、バージョン更新に強い適応性を示す。

関連論文リスト

SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文参考訳（メタデータ） (2026-02-03T11:44:39Z)
The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文参考訳（メタデータ） (2026-01-05T18:20:14Z)
BOSQTGEN: Breaking the Sound Barrier in Test Generation [3.052470294814771]
本稿では,新しいブラックボックスとAPIテスト生成ツールであるBOSQTGENを紹介する。 BOSQTGENは、API仕様をプリミティブに分解するための新しいアプローチ、LLMを使用してコヒーレントなインタラクションを提案し、これらの値を効率的にサンプリングするためにテストを採用する。結果として得られたBOSQTGENシステムは、ベンチマークで平均82%のコードカバレッジを達成するが、しばしば以前の最先端システムよりも20%以上増加する。
論文参考訳（メタデータ） (2025-10-22T17:11:30Z)
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。 IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文参考訳（メタデータ） (2025-08-28T15:57:33Z)
LLMShot: Reducing snapshot testing maintenance via LLMs [0.5218155982819203]
スナップショットテストは、現代のソフトウェア開発におけるUIバリデーションの重要なテクニックとして登場した。本稿では、VLM(Vision-Language Models)を利用して、スナップショットテストの失敗を自動的に解析する新しいフレームワークであるLLMShotを紹介する。
論文参考訳（メタデータ） (2025-07-14T08:47:19Z)
Regression Testing Optimization for ROS-based Autonomous Systems: A Comprehensive Review of Techniques [6.978850097048969]
ROSASに適した回帰テスト最適化手法を体系的にレビューする最初の総合的な調査を行う。我々は122の代表的な研究を回帰テストケースの優先順位付け、最小化、選択方法に分類した。 ROSASの回帰テストに特有の大きな課題として,頻繁なシステム修正に対応するテストを効果的に優先順位付けすること,冗長テストを効率的に最小化すること,影響のあるテストケースを正確に選択することの難しさを挙げる。
論文参考訳（メタデータ） (2025-06-19T07:43:36Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。 1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文参考訳（メタデータ） (2024-02-19T07:15:59Z)
Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文参考訳（メタデータ） (2023-07-28T12:38:44Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。