論文の概要: Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning
- arxiv url: http://arxiv.org/abs/2108.03353v1
- Date: Sat, 7 Aug 2021 03:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 04:22:11.451676
- Title: Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning
- Title(参考訳): Screen2Words:マルチモーダル学習によるモバイルUIの自動要約
- Authors: Bryan Wang, Gang Li, Xin Zhou, Zhourong Chen, Tovi Grossman, Yang Li
- Abstract要約: Mobile User Interface Summarizationは、画面の重要な内容と機能を伝えるためのモバイル画面の簡潔な言語記述を生成する。
そこで我々は,UI画面の基本情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法であるScreen2Wordsを提案する。
- 参考スコア(独自算出の注目度): 34.24671403624908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile User Interface Summarization generates succinct language descriptions
of mobile screens for conveying important contents and functionalities of the
screen, which can be useful for many language-based application scenarios. We
present Screen2Words, a novel screen summarization approach that automatically
encapsulates essential information of a UI screen into a coherent language
phrase. Summarizing mobile screens requires a holistic understanding of the
multi-modal data of mobile UIs, including text, image, structures as well as UI
semantics, motivating our multi-modal learning approach. We collected and
analyzed a large-scale screen summarization dataset annotated by human workers.
Our dataset contains more than 112k language summarization across $\sim$22k
unique UI screens. We then experimented with a set of deep models with
different configurations. Our evaluation of these models with both automatic
accuracy metrics and human rating shows that our approach can generate
high-quality summaries for mobile screens. We demonstrate potential use cases
of Screen2Words and open-source our dataset and model to lay the foundations
for further bridging language and user interfaces.
- Abstract(参考訳): モバイルユーザインタフェース要約は、画面の重要なコンテンツや機能を伝えるために、モバイル画面の簡潔な言語記述を生成する。
screen2wordsは,ui画面の本質情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法である。
モバイル画面の要約には、テキスト、画像、構造、UIセマンティクスなど、モバイルUIのマルチモーダルデータの総合的な理解が必要です。
人手による大規模画面要約データセットの収集と解析を行った。
当社のデータセットには、$\sim$22kのユニークなui画面にわたる112k以上の言語要約が含まれています。
次に、異なる構成の深いモデルセットを実験しました。
自動精度測定と人体評価の両方でこれらのモデルを評価することで,モバイル画面に高品質な要約を生成できることを示す。
Screen2Wordsの潜在的なユースケースを示し、私たちのデータセットとモデルをオープンソースにして、さらなるブリッジング言語とユーザインターフェースの基礎を築きます。
関連論文リスト
- ScreenAI: A Vision-Language Model for UI and Infographics Understanding [5.078099206303688]
UIとインフォグラフィックの理解を専門とする視覚言語モデルであるScreenAIを紹介する。
この混合の核心は、モデルがUI要素のタイプと位置を識別しなければならない新しいスクリーンアノテーションタスクである。
これらのテキストアノテーションを使用して、画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。
論文 参考訳(メタデータ) (2024-02-07T06:42:33Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Enabling Conversational Interaction with Mobile UI using Large Language
Models [15.907868408556885]
自然言語で多様なUIタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。
本稿では,単一言語モデルを用いて,モバイルUIとの多目的対話を実現することの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-09-18T20:58:39Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Widget Captioning: Generating Natural Language Description for Mobile
User Interface Elements [17.383434668094075]
ユーザインタフェース要素の言語記述を自動的に生成する新しいタスクであるウィジェットキャプションを提案する。
私たちのデータセットには、61,285 UI要素に注釈をつけるために、人間の作業者が作成した162,859の言語句が含まれています。
論文 参考訳(メタデータ) (2020-10-08T22:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。