論文の概要: Structuring GUI Elements through Vision Language Models: Towards Action Space Generation
- arxiv url: http://arxiv.org/abs/2508.16271v1
- Date: Fri, 22 Aug 2025 10:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.350697
- Title: Structuring GUI Elements through Vision Language Models: Towards Action Space Generation
- Title(参考訳): GUI要素の視覚言語モデルによる構造化:行動空間生成に向けて
- Authors: Yi Xu, Yesheng Zhang, jiajia Liu, Jingdong Chen,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、人間とコンピュータの相互作用を強化する重要なツールとして登場した。
本稿では,グラフィカルユーザインタフェース(GUI)要素構造化分野におけるMLLMの応用に焦点を当てた。
視覚モジュール機能を強化するために,IAML(IoU-Augmented Maximum Likelihood)トレーニングパラダイムを導入する。
- 参考スコア(独自算出の注目度): 43.932266242034025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have emerged as pivotal tools in enhancing human-computer interaction. In this paper we focus on the application of MLLMs in the field of graphical user interface (GUI) elements structuring, where they assist in processing user instructions based on screen contents. Despite the promise of MLLMs, their performance in precisely generating UI element coordinates, a critical aspect of GUI understanding, is hindered by the nature of next-token prediction training. This challenge arises from the semantic void surrounding numerical UI coordinates in language representation spaces, necessitating a substantial and diverse dataset to bolster visual module capabilities. To address these limitations, we introduce an IoU-Augmented Maximum Likelihood (IAML) training paradigm. Specifically, our approach involves a novel pipeline for IoU-based coordinate sampling to augment the training data, which considers the proximity to ground truth coordinates. This data augmentation strategy is then employed to fine-tune MLLMs under the IAML paradigm, which is designed to mitigate the exposure bias problem inherent in traditional maximum likelihood estimation. Through extensive experiments, we demonstrate the superior performance of our IAML training approach over traditional training paradigms.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、人間とコンピュータの相互作用を強化する重要なツールとして登場した。
本稿では,図形ユーザインタフェース(GUI)要素構造化分野におけるMLLMの応用に焦点を当て,画面コンテンツに基づくユーザ命令処理を支援する。
MLLMの約束にもかかわらず、GUI理解の重要な側面であるUI要素座標を正確に生成するそれらの性能は、次世代の予測トレーニングの性質によって妨げられている。
この課題は、言語表現空間における数値UI座標を取り巻くセマンティック・ヴォイドから生じ、視覚モジュール機能を強化するために、相当で多様なデータセットを必要とする。
これらの制約に対処するため、IoU-Augmented Maximum Likelihood (IAML)トレーニングパラダイムを導入する。
特に,本手法では,地中真理座標の近接性を考慮したトレーニングデータを強化するため,IoUベースの座標サンプリングのための新しいパイプラインを提案する。
このデータ拡張戦略は、従来の最大推定値に固有の露出バイアス問題を緩和するために、IAMLパラダイムの下でMLLMを微調整するために使用される。
広範な実験を通じて、従来のトレーニングパラダイムよりもIAMLトレーニングアプローチの優れたパフォーマンスを実証する。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。