論文の概要: MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding
- arxiv url: http://arxiv.org/abs/2409.14818v2
- Date: Thu, 3 Oct 2024 05:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:50:08.901487
- Title: MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding
- Title(参考訳): MobileVLM:UI内およびUI間理解を改善するビジョン言語モデル
- Authors: Qinzhuo Wu, Weikai Xu, Wei Liu, Tao Tan, Jianfeng Liu, Ang Li, Jian Luan, Bin Wang, Shuo Shang,
- Abstract要約: 我々は,UI内理解とUI間理解を両立させる2つの事前学習段階を含むMobileVLMを提案する。
モバイル事前トレーニングデータの不足に対処するため、中国製の大規模なモバイルデータセットMobile3Mをスクラッチから構築しました。
実験の結果,MobileVLMはテストセットと公開モバイルベンチマークの両方で優れており,既存のVLMよりも優れていた。
- 参考スコア(独自算出の注目度): 37.15649883702765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, mobile AI agents based on VLMs have been gaining increasing attention. These works typically utilize VLM as a foundation, fine-tuning it with instruction-based mobile datasets. However, these VLMs are typically pre-trained on general-domain data, which often results in a lack of fundamental capabilities specific to the mobile domain. Therefore, they may struggle to recognize specific UI elements and understand intra-UI fine-grained information. In addition, the current fine-tuning task focuses on interacting with the most relevant element for the given instruction. These fine-tuned VLMs may still ignore the relationships between UI pages, neglect the roles of elements in page transitions and lack inter-UI understanding. To address issues, we propose a VLM called MobileVLM, which includes two additional pre-training stages to enhance both intra- and inter-UI understanding. We defined four UI-based pre-training tasks, enabling the model to better perceive fine-grained elements and capture page transition actions. To address the lack of mobile pre-training data, we built a large Chinese mobile dataset Mobile3M from scratch, which contains 3 million UI pages, and real-world transition actions, forming a directed graph structure. Experimental results show MobileVLM excels on both our test set and public mobile benchmarks, outperforming existing VLMs.
- Abstract(参考訳): 近年,VLMに基づくモバイルAIエージェントが注目されている。
これらの作業は通常、VLMを基礎として利用し、命令ベースのモバイルデータセットを微調整する。
しかしながら、これらのVLMは一般的に、一般的なドメインデータに基づいて事前訓練されているため、多くの場合、モバイルドメイン固有の基本的な機能が欠如する。
そのため、特定のUI要素を認識し、UI内部のきめ細かい情報を理解するのに苦労する可能性がある。
さらに、現在の微調整タスクは、与えられた命令に対して最も関連性の高い要素と対話することに焦点を当てている。
これらの微調整されたVLMは、UIページ間の関係を無視し、ページ遷移における要素の役割を無視し、UI間の理解を欠いている可能性がある。
そこで本研究では,UI内理解とUI間理解を両立させる2つの事前学習段階を含む,MobileVLMというVLMを提案する。
UIベースの事前トレーニングタスクを4つ定義しました。
モバイル事前トレーニングデータの欠如に対処するため,中国製の大規模なモバイルデータセットMobile3Mをスクラッチから構築した。
実験の結果,MobileVLMはテストセットと公開モバイルベンチマークの両方で優れており,既存のVLMよりも優れていた。
関連論文リスト
- Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。
ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。
急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文 参考訳(メタデータ) (2024-10-04T17:14:59Z) - FLAME: Learning to Navigate with Multimodal LLM in Urban Environments [12.428873051106702]
大規模言語モデル(LLM)は視覚・言語ナビゲーション(VLN)タスクの可能性を実証している。
LLMは専門的なナビゲーションタスクに苦労し、専門的なVLNモデルと比較すると、最適以下の性能が得られる。
本稿では,都市VLNタスク用に設計された新しいマルチモーダルLLMエージェントとアーキテクチャであるFLAMEを紹介する。
論文 参考訳(メタデータ) (2024-08-20T17:57:46Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - 3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation [13.622700558266658]
本稿では,凍結事前学習型視覚言語モデル(VLM)をバックボーンとして用いることを提案する。
まず、フリーズした畳み込みCLIPバックボーンを使用して、機能に整合したビジョンとテキスト機能を生成し、ドメインギャップの問題を軽減する。
第二に、マルチモーダル情報の利用を高めるために、パイプラインによりクロスモーダルな特徴融合を追加します。
論文 参考訳(メタデータ) (2024-06-07T11:15:03Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - "What's important here?": Opportunities and Challenges of Using LLMs in
Retrieving Information from Web Interfaces [19.656406003275713]
本研究では,大規模言語モデル (LLM) を用いて,Web インターフェースにおいてユーザが与えられたクエリに対して重要な要素を検索し,発見する方法について検討する。
私たちの経験的な実験によると、LLMは重要なUI要素を取得する上で適切なレベルのパフォーマンスを示しますが、改善の余地は依然としてあります。
論文 参考訳(メタデータ) (2023-12-11T06:26:38Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。