論文の概要: UI-UG: A Unified MLLM for UI Understanding and Generation
- arxiv url: http://arxiv.org/abs/2509.24361v2
- Date: Tue, 30 Sep 2025 07:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.413655
- Title: UI-UG: A Unified MLLM for UI Understanding and Generation
- Title(参考訳): UI-UG:UI理解と生成のための統一MLLM
- Authors: Hao Yang, Weijie Qiu, Ru Zhang, Zhou Fang, Ruichao Mao, Xiaoyu Lin, Maji Huang, Zhaosong Huang, Teng Guo, Shuoyang Liu, Hai Rao,
- Abstract要約: UI-UG(UI理解と生成のための統合MLLM)を導入し、両方の機能を統合する。
タスク理解には,グループ相対政策最適化(GRPO)を併用したスーパービジョンファインチューニング(SFT)を用い,より詳細な理解を深める。
生成タスクでは、さらにDPO(Direct Preference Optimization)を使用して、モデルが人間の好みのUIを生成する。
- 参考スコア(独自算出の注目度): 19.7078650905834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) have been widely applied across domains, they are still facing challenges in domain-specific tasks, such as User Interface (UI) understanding accuracy and UI generation quality. In this paper, we introduce UI-UG (a unified MLLM for UI Understanding and Generation), integrating both capabilities. For understanding tasks, we employ Supervised Fine-tuning (SFT) combined with Group Relative Policy Optimization (GRPO) to enhance fine-grained understanding on the modern complex UI data. For generation tasks, we further use Direct Preference Optimization (DPO) to make our model generate human-preferred UIs. In addition, we propose an industrially effective workflow, including the design of an LLM-friendly domain-specific language (DSL), training strategies, rendering processes, and evaluation metrics. In experiments, our model achieves state-of-the-art (SOTA) performance on understanding tasks, outperforming both larger general-purpose MLLMs and similarly-sized UI-specialized models. Our model is also on par with these larger MLLMs in UI generation performance at a fraction of the computational cost. We also demonstrate that integrating understanding and generation tasks can improve accuracy and quality for both tasks. Code and Model: https://github.com/neovateai/UI-UG
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はドメイン全体に広く適用されているが、ユーザインターフェース(UI)の正確性やUI生成品質といったドメイン固有のタスクでは、依然として課題に直面している。
本稿では,UI-UG(UI理解と生成のための統合MLLM)について述べる。
タスクの理解には,教師付きファインチューニング(SFT)とグループ相対ポリシー最適化(GRPO)を組み合わせて,現代的な複雑なUIデータに対するきめ細かい理解を強化する。
生成タスクでは、さらにDPO(Direct Preference Optimization)を使用して、モデルが人間の好みのUIを生成する。
さらに,LLMフレンドリなドメイン固有言語(DSL)の設計,トレーニング戦略,レンダリングプロセス,評価指標など,産業的に効果的なワークフローを提案する。
実験では,より大規模な汎用MLLMと類似のUI特化モデルの両方に優れ,タスク理解における最先端(SOTA)性能を実現している。
計算コストのごく一部でUI生成性能を向上する上で,このモデルもMLLMと同等である。
また、理解と生成タスクの統合により、両方のタスクの精度と品質が向上することを示した。
コードとモデル:https://github.com/neovateai/UI-UG
関連論文リスト
- Structuring GUI Elements through Vision Language Models: Towards Action Space Generation [43.932266242034025]
マルチモーダル大規模言語モデル(MLLM)は、人間とコンピュータの相互作用を強化する重要なツールとして登場した。
本稿では,グラフィカルユーザインタフェース(GUI)要素構造化分野におけるMLLMの応用に焦点を当てた。
視覚モジュール機能を強化するために,IAML(IoU-Augmented Maximum Likelihood)トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2025-08-22T10:14:15Z) - API Agents vs. GUI Agents: Divergence and Convergence [37.13923771130588]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。