論文の概要: AutoGameUI: Constructing High-Fidelity Game UIs via Multimodal Learning and Interactive Web-Based Tool
- arxiv url: http://arxiv.org/abs/2411.03709v1
- Date: Wed, 06 Nov 2024 07:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:22:52.587092
- Title: AutoGameUI: Constructing High-Fidelity Game UIs via Multimodal Learning and Interactive Web-Based Tool
- Title(参考訳): AutoGameUI:マルチモーダル学習と対話型Webベースツールによる高忠実度ゲームUIの構築
- Authors: Zhongliang Tang, Mengchen Tan, Fei Xia, Qingrong Cheng, Hao Jiang, Yongxiang Zhang,
- Abstract要約: 本稿では,ゲーム開発において協調的なユーザインタフェースを効率的に構築するための革新的システムであるAutoGameUIを紹介する。
UIとUXの両方の設計を包括的に表現する2段階のマルチモーダル学習パイプラインを提案する。
対応を通して、結合性のあるユーザインタフェースがペア設計から自動的に構築される。
- 参考スコア(独自算出の注目度): 21.639682821138663
- License:
- Abstract: We introduce an innovative system, AutoGameUI, for efficiently constructing cohesive user interfaces in game development. Our system is the first to address the coherence issue arising from integrating inconsistent UI and UX designs, typically leading to mismatches and inefficiencies. We propose a two-stage multimodal learning pipeline to obtain comprehensive representations of both UI and UX designs, and to establish their correspondences. Through the correspondences, a cohesive user interface is automatically constructed from pairwise designs. To achieve high-fidelity effects, we introduce a universal data protocol for precise design descriptions and cross-platform applications. We also develop an interactive web-based tool for game developers to facilitate the use of our system. We create a game UI dataset from actual game projects and combine it with a public dataset for training and evaluation. Our experimental results demonstrate the effectiveness of our system in maintaining coherence between the constructed interfaces and the original designs.
- Abstract(参考訳): 本稿では,ゲーム開発において協調的なユーザインタフェースを効率的に構築するための革新的システムであるAutoGameUIを紹介する。
私たちのシステムは、一貫性のないUIとUX設計を統合することで生じる一貫性の問題に最初に対処します。
2段階のマルチモーダル学習パイプラインを提案し,UI設計とUX設計の両方を包括的に表現し,その対応性を確立する。
対応を通して、結合性のあるユーザインタフェースがペア設計から自動的に構築される。
高精度な設計記述とクロスプラットフォームアプリケーションのための汎用データプロトコルを提案する。
また,ゲーム開発者がシステムの利用を容易にするためのインタラクティブなWebベースツールも開発している。
実際のゲームプロジェクトからゲームUIデータセットを作成し、トレーニングと評価のための公開データセットと組み合わせます。
実験により, 構成したインタフェースと設計の整合性を維持する上で, システムの有効性を実証した。
関連論文リスト
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - On AI-Inspired UI-Design [5.969881132928718]
アプリデザイナの創造性を刺激する3つの補完的人工知能(AI)アプローチについて論じる。
まず、デザイナはLarge Language Model(LLM)にUIを直接生成して調整するように促すことができる。
第2に、VLM(Vision-Language Model)により、デザイナは大きなスクリーンショットデータセットを効率的に検索できる。
第3に、ディフュージョンモデル(DM)は、インスピレーションのあるイメージとしてUIを具体的に生成するように訓練することができる。
論文 参考訳(メタデータ) (2024-06-19T15:28:21Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - UIClip: A Data-driven Model for Assessing User Interface Design [20.66914084220734]
ユーザインタフェースの設計品質と視覚的関連性を評価するための機械学習モデルUIClipを開発した。
UIClipがUI設計品質の即時評価に依存するダウンストリームアプリケーションをどのように促進するかを示す。
論文 参考訳(メタデータ) (2024-04-18T20:43:08Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。
私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。
この自己アライメントを利用した5つの事前学習タスクを提案する。
UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文 参考訳(メタデータ) (2021-07-29T03:51:36Z) - Magic Layouts: Structural Prior for Component Detection in User
Interface Designs [28.394160581239174]
ユーザインタフェース(UI)レイアウトのスクリーンショットや手書きスケッチを解析する手法であるMagic Layoutsを提示する。
当社のコアコントリビューションは、既存の検出器を拡張して、UI設計の学習された構造を活用することです。
ユーザエクスペリエンス(UX)設計のディジタルプロトタイプを高速に取得するためのインタラクティブアプリケーションとして,コンテキスト内でデモを行う。
論文 参考訳(メタデータ) (2021-06-14T17:20:36Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。