Fugu-MT 論文翻訳(概要): Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning

論文の概要: Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning

arxiv url: http://arxiv.org/abs/2108.03353v1
Date: Sat, 7 Aug 2021 03:01:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-12 04:22:11.451676
Title: Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning
Title（参考訳）: Screen2Words:マルチモーダル学習によるモバイルUIの自動要約
Authors: Bryan Wang, Gang Li, Xin Zhou, Zhourong Chen, Tovi Grossman, Yang Li
Abstract要約: Mobile User Interface Summarizationは、画面の重要な内容と機能を伝えるためのモバイル画面の簡潔な言語記述を生成する。そこで我々は,UI画面の基本情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法であるScreen2Wordsを提案する。
参考スコア（独自算出の注目度）: 34.24671403624908
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mobile User Interface Summarization generates succinct language descriptions of mobile screens for conveying important contents and functionalities of the screen, which can be useful for many language-based application scenarios. We present Screen2Words, a novel screen summarization approach that automatically encapsulates essential information of a UI screen into a coherent language phrase. Summarizing mobile screens requires a holistic understanding of the multi-modal data of mobile UIs, including text, image, structures as well as UI semantics, motivating our multi-modal learning approach. We collected and analyzed a large-scale screen summarization dataset annotated by human workers. Our dataset contains more than 112k language summarization across $\sim$22k unique UI screens. We then experimented with a set of deep models with different configurations. Our evaluation of these models with both automatic accuracy metrics and human rating shows that our approach can generate high-quality summaries for mobile screens. We demonstrate potential use cases of Screen2Words and open-source our dataset and model to lay the foundations for further bridging language and user interfaces.
Abstract（参考訳）: モバイルユーザインタフェース要約は、画面の重要なコンテンツや機能を伝えるために、モバイル画面の簡潔な言語記述を生成する。 screen2wordsは,ui画面の本質情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法である。モバイル画面の要約には、テキスト、画像、構造、UIセマンティクスなど、モバイルUIのマルチモーダルデータの総合的な理解が必要です。人手による大規模画面要約データセットの収集と解析を行った。当社のデータセットには、$\sim$22kのユニークなui画面にわたる112k以上の言語要約が含まれています。次に、異なる構成の深いモデルセットを実験しました。自動精度測定と人体評価の両方でこれらのモデルを評価することで,モバイル画面に高品質な要約を生成できることを示す。 Screen2Wordsの潜在的なユースケースを示し、私たちのデータセットとモデルをオープンソースにして、さらなるブリッジング言語とユーザインターフェースの基礎を築きます。

関連論文リスト

OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文参考訳（メタデータ） (2025-02-22T09:32:01Z)
Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文参考訳（メタデータ） (2024-10-17T17:48:54Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は視覚と触覚のモダリティに焦点を当てています我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文参考訳（メタデータ） (2024-03-14T19:01:54Z)
ScreenAI: A Vision-Language Model for UI and Infographics Understanding [4.914575630736291]
UIとインフォグラフィックの理解を専門とする視覚言語モデルであるScreenAIを紹介する。この混合の核心は、モデルがUI要素のタイプと位置を識別しなければならない新しいスクリーンアノテーションタスクである。これらのテキストアノテーションを使用して、画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。
論文参考訳（メタデータ） (2024-02-07T06:42:33Z)
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。 MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文参考訳（メタデータ） (2023-10-08T11:33:09Z)
ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文参考訳（メタデータ） (2023-10-07T16:32:34Z)
TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文参考訳（メタデータ） (2023-03-27T17:54:32Z)
Enabling Conversational Interaction with Mobile UI using Large Language Models [15.907868408556885]
自然言語で多様なUIタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。本稿では,単一言語モデルを用いて,モバイルUIとの多目的対話を実現することの実現可能性について検討する。
論文参考訳（メタデータ） (2022-09-18T20:58:39Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements [17.383434668094075]
ユーザインタフェース要素の言語記述を自動的に生成する新しいタスクであるウィジェットキャプションを提案する。私たちのデータセットには、61,285 UI要素に注釈をつけるために、人間の作業者が作成した162,859の言語句が含まれています。
論文参考訳（メタデータ） (2020-10-08T22:56:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。