論文の概要: GameUIAgent: An LLM-Powered Framework for Automated Game UI Design with Structured Intermediate Representation
- arxiv url: http://arxiv.org/abs/2603.14724v1
- Date: Mon, 16 Mar 2026 01:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.988409
- Title: GameUIAgent: An LLM-Powered Framework for Automated Game UI Design with Structured Intermediate Representation
- Title(参考訳): GameUIAgent:構造化中間表現を用いたゲームUI自動設計用LLMフレームワーク
- Authors: Wei Zeng, Fengwei An, Zhen Liu, Jian Zhao,
- Abstract要約: ゲームUIのデザインは、希少層にまたがる一貫した視覚的アセットを必要とするが、手動のプロセスが主流である。
本稿では、自然言語記述を編集可能なFigma設計に変換する、GameUIAgent LLMを利用したエージェントフレームワークを提案する。
6段階のニューロシンボリックパイプラインは、LCM生成、決定論的後処理、反復自己補正のためのビジョンランゲージモデル(VLM)誘導反射制御器(RC)を組み合わせる。
- 参考スコア(独自算出の注目度): 10.74393288520677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game UI design requires consistent visual assets across rarity tiers yet remains a predominantly manual process. We present GameUIAgent, an LLM-powered agentic framework that translates natural language descriptions into editable Figma designs via a Design Spec JSON intermediate representation. A six-stage neuro-symbolic pipeline combines LLM generation, deterministic post-processing, and a Vision-Language Model (VLM)-guided Reflection Controller (RC) for iterative self-correction with guaranteed non-regressive quality. Evaluated across 110 test cases, three LLMs, and three UI templates, cross-model analysis establishes a game-domain failure taxonomy (rarity-dependent degradation; visual emptiness) and uncovers two key empirical findings. A Quality Ceiling Effect (Pearson r=-0.96, p<0.01) suggests that RC improvement is bounded by headroom below a quality threshold -- a visual-domain counterpart to test-time compute scaling laws. A Rendering-Evaluation Fidelity Principle reveals that partial rendering enhancements paradoxically degrade VLM evaluation by amplifying structural defects. Together, these results establish foundational principles for LLM-driven visual generation agents in game production.
- Abstract(参考訳): ゲームUIのデザインは、希少層にまたがる一貫した視覚的アセットを必要とするが、手動のプロセスが主流である。
本稿では,LLMを利用したエージェントフレームワークGameUIAgentを設計仕様JSON中間表現を用いて,自然言語記述を編集可能なFigma設計に変換する。
6段階のニューロシンボリックパイプラインは、LLM生成、決定論的後処理、および非回帰的品質を保証された反復自己補正のためのビジョンランゲージモデル(VLM)誘導反射制御器(RC)を組み合わせる。
110のテストケース、3つのLDM、3つのUIテンプレートで評価され、クロスモデル分析はゲームドメインの障害分類(リアリティに依存した劣化、視覚的空さ)を確立し、2つの重要な経験的発見を明らかにする。
Quality Ceiling Effect (Pearson r=-0.96, p<0.01) は、RCの改善は品質閾値以下のヘッドルームによって境界づけられていることを示唆している。
Rendering-Evaluation Fidelity Principleは、部分的なレンダリング強化が構造欠陥を増幅することによりVLMの評価をパラドックス的に劣化させることを示した。
これらの結果から,ゲーム制作におけるLLM駆動型視覚生成エージェントの基礎原理が確立された。
関連論文リスト
- ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。
画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。
本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:32:55Z) - LLM as a Neural Architect: Controlled Generation of Image Captioning Models Under Strict API Contracts [48.83701310501069]
LLM誘導型ニューラルネットワーク探索パイプラインであるNN-Captionを提案する。
LEMURの分類バックボーンからCNNエンコーダを構成することで、実行可能な画像キャプチャモデルを生成する。
この作業では、プロンプトベースのコード生成と自動評価を統合するパイプラインを提示する。
論文 参考訳(メタデータ) (2025-12-07T10:47:28Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。