論文の概要: Mage: Multi-Axis Evaluation of LLM-Generated Executable Game Scenes Beyond Compile-Pass Rate
- arxiv url: http://arxiv.org/abs/2605.07342v1
- Date: Fri, 08 May 2026 06:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.871898
- Title: Mage: Multi-Axis Evaluation of LLM-Generated Executable Game Scenes Beyond Compile-Pass Rate
- Title(参考訳): Mage: LLM生成型実行可能ゲームシーンのコンパイル-パス速度を超えるマルチ軸評価
- Authors: Hugh Xuechen Liu, Kıvanç Tatar,
- Abstract要約: コンパイルパスレートは、LLMコード生成における主要な評価信号である。
この領域では,コンパイル速度が機能的正確性と反相関があることが示されている。
独立した検証のために、ベンチマーク、ログの再生、レコード単位のメトリクスをリリースします。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compile-pass rate is the dominant evaluation signal for LLM code generation, yet for multi-component domain-specific artifacts it can be actively misleading. We demonstrate this on executable game scene synthesis with a four-axis evaluation protocol (named `Mage') -- compile success, runtime success, structural fidelity, and mechanism adherence -- applied to 858 generation attempts across four open-weight LLMs (7B--30B), 26~hand-crafted Unity goal pattern playable concepts, and two automatically extracted IR granularity levels. Direct NL-to-C\# generation achieves the highest runtime-pass rate (43\% mean) yet produces structurally vacuous scenes (mechanism $F_1 \approx 0.12$). Structural IR conditioning halves the runtime rate but recovers domain-faithful structure ($F_1$ up to 1.00). Within IR conditioning, behavior-only and full-scene granularity are statistically indistinguishable (McNemar $p = 1.0$), indicating input-level granularity saturation. These results show that compile rate is anti-correlated with functional correctness in this domain and that multi-axis evaluation is necessary to detect the divergence. We release the benchmark, replay logs, and per-record metrics for independent verification.
- Abstract(参考訳): コンパイルパスレートは、LLMコード生成における主要な評価信号であるが、多成分ドメイン固有のアーティファクトに対しては、積極的に誤解を招く可能性がある。
本研究では,4つのオープンウェイト LLM (7B-30B),26-手作りのUnity目標パターンプレイ可能な概念と2つのIR粒度レベルの自動抽出に対して,コンパイル成功,実行時成功,構造忠実性,機構付着性を応用した4軸評価プロトコル("Mage")による実行可能ゲームシーンの合成を実演する。
直接NL-to-C\#生成は、最高の実行時パスレート(平均43.%)を達成するが、構造的に空っぽなシーンを生成する(メカニズムは$F_1 \approx 0.12$)。
構造IR条件付けは実行速度を半減するが、ドメイン忠実な構造(F_1$ 最大1.00)を回復する。
IR条件下では、振舞いのみの粒度とフルシーンの粒度は統計的に区別できない(McNemar $p = 1.0$)。
これらの結果から, この領域では, コンパイル速度が機能的正当性と反相関しており, 分散を検出するためには多軸評価が必要であることが示唆された。
独立した検証のために、ベンチマーク、ログの再生、レコード単位のメトリクスをリリースします。
関連論文リスト
- How Much LLM Does a Self-Revising Agent Actually Need? [0.14323566945483496]
我々は,エージェントの状態,信頼信号,保護された動作,仮説的遷移を検査可能なランタイム構造に外部化する,宣言された反射型ランタイムプロトコルを導入する。
54ゲームで4つの段階的に構造化されたエージェントを用いて,ノイズの多い協調戦闘艦上での評価を行った。
論文 参考訳(メタデータ) (2026-04-08T16:02:04Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Enhancing LLM-based Fault Localization with a Functionality-Aware Retrieval-Augmented Generation Framework [14.287359838639608]
FaR-Locは、メソッドレベルの障害ローカライゼーションを強化するフレームワークである。
FaR-Locは、LLM機能抽出、Semantic Retrieval、LLM再ランクの3つの重要なコンポーネントで構成されている。
広く使われているDefects4Jベンチマーク実験により、FaR-Locは最先端のLCMベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-09-24T20:37:11Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。