論文の概要: ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots
- arxiv url: http://arxiv.org/abs/2209.08199v4
- Date: Sun, 09 Feb 2025 21:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 17:37:41.079182
- Title: ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots
- Title(参考訳): ScreenQA: モバイルアプリのスクリーンショットに関する大規模質問応答ペア
- Authors: Yu-Chung Hsiao, Fedir Zubach, Gilles Baechler, Srinivas Sunkara, Victor Carbune, Jason Lin, Maria Wang, Yun Zhu, Jindong Chen,
- Abstract要約: ScreenQAは、質問応答による画面コンテンツ理解を促進するために設計された、新しいベンチマークデータセットである。
RICOデータセットに86kの質問応答ペアをアノテートすることにより,画面読解能力のベンチマークを行う。
オープンウェイトモデルとプロプライエタリモデルの両方を用いて、ゼロショット、微調整、転送学習設定でデータセットの有効性を評価する。
- 参考スコア(独自算出の注目度): 8.176933082548093
- License:
- Abstract: We introduce ScreenQA, a novel benchmarking dataset designed to advance screen content understanding through question answering. The existing screen datasets are focused either on low-level structural and component understanding, or on a much higher-level composite task such as navigation and task completion for autonomous agents. ScreenQA attempts to bridge this gap. By annotating 86k question-answer pairs over the RICO dataset, we aim to benchmark the screen reading comprehension capacity, thereby laying the foundation for vision-based automation over screenshots. Our annotations encompass full answers, short answer phrases, and corresponding UI contents with bounding boxes, enabling four subtasks to address various application scenarios. We evaluate the dataset's efficacy using both open-weight and proprietary models in zero-shot, fine-tuned, and transfer learning settings. We further demonstrate positive transfer to web applications, highlighting its potential beyond mobile applications.
- Abstract(参考訳): 質問応答による画面コンテンツ理解を促進するために設計された,新しいベンチマークデータセットであるScreenQAを紹介する。
既存のスクリーンデータセットは、低レベルの構造とコンポーネントの理解、あるいは自律エージェントのナビゲーションやタスク補完といったより高度な複合タスクに焦点を当てている。
ScreenQAはこのギャップを埋めようとしている。
RICOデータセットに86kの質問応答ペアをアノテートすることにより、画面読取能力のベンチマークを行い、スクリーンショットの上に視覚ベースの自動化の基盤を構築することを目指している。
私たちのアノテーションには、完全な回答、短い回答フレーズ、およびバウンディングボックスによる対応するUIコンテンツが含まれており、4つのサブタスクが様々なアプリケーションシナリオに対処することができます。
オープンウェイトモデルとプロプライエタリモデルの両方を用いて、ゼロショット、微調整、転送学習設定でデータセットの有効性を評価する。
われわれはさらに、Webアプリケーションへのポジティブな移行を実証し、モバイルアプリケーションを超えてその可能性を強調している。
関連論文リスト
- Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - WebQuest: A Benchmark for Multimodal QA on Web Page Sequences [10.008284460456107]
WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。
本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。
我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
論文 参考訳(メタデータ) (2024-09-06T18:44:25Z) - OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。
textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。
textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文 参考訳(メタデータ) (2024-08-01T00:00:43Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation [8.998467488526327]
本稿では、デバイス上でのモバイルUIタスク実行と、忠実でスケーラブルなタスク評価のためのテストベッドであるLlamaTouchを提案する。
LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をすべてトラバースするかどうかのみを評価する、新しい評価アプローチを採用している。
LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。
論文 参考訳(メタデータ) (2024-04-12T15:39:09Z) - SnapNTell: Enhancing Entity-Centric Visual Question Answering with
Retrieval Augmented Multimodal LLM [48.15067480282839]
本研究は、エンティティ中心のVQAに特化して開発された、textbfSnapNTellという新しい評価ベンチマークを導入する。
データセットは22の主要なカテゴリに分けられ、合計で7,568のユニークなエンティティが含まれている。
提案手法はSnapNTellデータセットの既存手法を著しく上回り,BELURTスコアの66.5%向上を達成した。
論文 参考訳(メタデータ) (2024-03-07T18:38:17Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning [34.24671403624908]
Mobile User Interface Summarizationは、画面の重要な内容と機能を伝えるためのモバイル画面の簡潔な言語記述を生成する。
そこで我々は,UI画面の基本情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法であるScreen2Wordsを提案する。
論文 参考訳(メタデータ) (2021-08-07T03:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。