Fugu-MT 論文翻訳(概要): Synergizing Code Coverage and Gameplay Intent: Coverage-Aware Game Playtesting with LLM-Guided Reinforcement Learning

論文の概要: Synergizing Code Coverage and Gameplay Intent: Coverage-Aware Game Playtesting with LLM-Guided Reinforcement Learning

arxiv url: http://arxiv.org/abs/2512.12706v1
Date: Sun, 14 Dec 2025 14:18:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-16 17:54:56.394906
Title: Synergizing Code Coverage and Gameplay Intent: Coverage-Aware Game Playtesting with LLM-Guided Reinforcement Learning
Title（参考訳）: コードカバレッジとゲームプレイインテントの相乗化: LLM指導強化学習によるカバレッジ・アウェアゲームプレイテスト
Authors: Enhong Mu, Minami Yoda, Yan Zhang, Mingyue Zhang, Yutaka Matsuno, Jialong Li,
Abstract要約: ゲーム・アズ・ア・サービス(Games as a Service)モデルは頻繁なコンテンツ更新を必要とする。コード中心の手法は、ゲームプレイコンテキストを理解せずに構造的カバレッジに焦点を当てる。ゲーム更新テストのための構造検証と機能検証を相乗化する新しいフレームワークSMARTを提案する。
参考スコア（独自算出の注目度）: 4.3706127838450035
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The widespread adoption of the "Games as a Service" model necessitates frequent content updates, placing immense pressure on quality assurance. In response, automated game testing has been viewed as a promising solution to cope with this demanding release cadence. However, existing automated testing approaches typically create a dichotomy: code-centric methods focus on structural coverage without understanding gameplay context, while player-centric agents validate high-level intent but often fail to cover specific underlying code changes. To bridge this gap, we propose SMART (Structural Mapping for Augmented Reinforcement Testing), a novel framework that synergizes structural verification and functional validation for game update testing. SMART leverages large language models (LLMs) to interpret abstract syntax tree (AST) differences and extract functional intent, constructing a context-aware hybrid reward mechanism. This mechanism guides reinforcement learning agents to sequentially fulfill gameplay goals while adaptively exploring modified code branches. We evaluate SMART on two environments, Overcooked and Minecraft. The results demonstrate that SMART significantly outperforms state-of-the-art baselines; it achieves over 94% branch coverage of modified code, nearly double that of traditional reinforcement learning methods, while maintaining a 98% task completion rate, effectively balancing structural comprehensiveness with functional correctness.
Abstract（参考訳）: ゲーム・アズ・ア・サービス(Games as a Service)モデルの普及は、頻繁なコンテンツ更新を必要とし、品質保証に大きな圧力をかける。これに対し、自動ゲームテストは、この要求されているリリースケイデンスに対処するための有望なソリューションと見なされている。コード中心のメソッドはゲームプレイコンテキストを理解せずに構造的カバレッジにフォーカスするのに対して、プレイヤー中心のエージェントは高いレベルの意図を検証しているが、特定のコード変更をカバーできないことが多い。このギャップを埋めるために,ゲーム更新テストのための構造検証と機能検証を協調する新しいフレームワークSMART(Structural Mapping for Augmented Reinforcement Testing)を提案する。 SMARTは、大きな言語モデル(LLM)を利用して抽象構文木(AST)の違いを解釈し、機能的意図を抽出し、コンテキスト対応のハイブリッド報酬機構を構築する。このメカニズムは、修正されたコードブランチを適応的に探索しながら、強化学習エージェントがゲームプレイ目標を順次達成するように誘導する。 SMARTをOvercookedとMinecraftの2つの環境で評価した。その結果,SMARTは従来の強化学習手法のほぼ2倍の修正コードの94%以上を達成し,98%のタスク完了率を維持し,構造的包括性と機能的正しさを効果的にバランスさせることができた。

関連論文リスト

RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
From Completion to Editing: Unlocking Context-Aware Code Infilling via Search-and-Replace Instruction Tuning [81.97788535387286]
本稿では,エージェントによる検証・編集機構を統一された単一パス推論プロセスに内部化するフレームワークを提案する。最小限のデータで、SRI-Coderは、ChatモデルがBaseモデルの完了性能を上回ることができる。 FIMスタイルのチューニングとは異なり、SRIは一般的なコーディング能力を保持し、標準のFIMに匹敵する推論遅延を維持する。
論文参考訳（メタデータ） (2026-01-19T20:33:53Z)
AJAR: Adaptive Jailbreak Architecture for Red-teaming [1.356919241968803]
AJARは概念実証フレームワークであり、"赤チーム"と"アクションセキュリティ"のギャップを埋めるように設計されている。 AJARは実行ループから逆ロジックを分離し、X-Teamingのような最先端のアルゴリズムを標準化されたプラグイン・アンド・プレイサービスとしてカプセル化する。 AJARは、この出現する攻撃面の標準化された環境対応評価を容易にするために、オープンソース化されている。
論文参考訳（メタデータ） (2026-01-16T03:30:40Z)
SAGE: Semantic-Aware Gray-Box Game Regression Testing with Large Language Models [12.705802209782506]
SAGEは、グレーボックスゲーム環境用のセマンティックアウェア回帰テストフレームワークである。テスト生成、メンテナンス、選択のコア課題に対処します。バージョン更新に強い適応性を示しながら、実行コストを大幅に削減した優れたバグ検出を実現する。
論文参考訳（メタデータ） (2025-11-29T17:09:18Z)
Knowledge Graph-enhanced Large Language Model for Incremental Game PlayTesting [10.112811020571774]
本稿では,段階的なゲーム更新に適した高精度かつ効率的なテストを行うためのKLPEGフレームワークを提案する。このフレームワークは、ゲーム要素、タスク依存、因果関係を体系的にモデル化する知識グラフ(KG)を構築し、維持する。 OvercookedとMinecraftの2つの代表的なゲーム環境での実験は、KLPEGが更新によって影響を受ける機能をより正確に特定できることを実証している。
論文参考訳（メタデータ） (2025-11-04T12:40:46Z)
WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection [51.10348385624784]
本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
論文参考訳（メタデータ） (2025-10-21T16:52:00Z)
FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding [11.846768103642583]
FeatBenchは、機能実装に焦点を当てた、バイブコーディングのための新しいベンチマークである。 FeatBenchは、ベンチマークを進化させるための品質と完全に自動化されたパイプラインを保証するために、マルチレベルのフィルタリングパイプライン上に構築されている。我々の評価によると、ビブ符号化パラダイムにおける機能実装は重要な課題であり、最高成功率は29.94%である。
論文参考訳（メタデータ） (2025-09-26T11:47:50Z)
SAEL: Leveraging Large Language Models with Adaptive Mixture-of-Experts for Smart Contract Vulnerability Detection [14.581402965011117]
スマートコントラクト脆弱性検出のためのLLMベースのフレームワークであるSAELを提案する。まず、脆弱性を特定し、説明を生成するためにLSMを誘導するプロンプトを設計する。次に、CodeT5とT5のプロンプトチューニングをコントラクトコードと説明処理に適用し、タスク固有のパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-07-30T04:28:00Z)
Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文参考訳（メタデータ） (2025-06-09T19:36:40Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文参考訳（メタデータ） (2025-03-03T01:55:20Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
Deep Policy Networks for NPC Behaviors that Adapt to Changing Design Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-12-07T08:47:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。