Fugu-MT 論文翻訳(概要): ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots

論文の概要: ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots

arxiv url: http://arxiv.org/abs/2209.08199v3
Date: Tue, 30 Jul 2024 05:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 23:19:20.189209
Title: ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots
Title（参考訳）: ScreenQA: モバイルアプリのスクリーンショットに関する大規模質問応答ペア
Authors: Yu-Chung Hsiao, Fedir Zubach, Gilles Baechler, Victor Carbune, Jason Lin, Maria Wang, Srinivas Sunkara, Yun Zhu, Jindong Chen,
Abstract要約: 質問応答による画面コンテンツ理解のための新しいベンチマークとデータセットScreenQAを提案する。この作業は、フル文とショートフォームの両方を含む、さまざまなアプリケーションシナリオに対してアノテートする最初のものでもある。
参考スコア（独自算出の注目度）: 8.176933082548093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a new benchmark and dataset, ScreenQA, for screen content understanding via question answering. The existing screen datasets are focused either on structure and component-level understanding, or on a much higher-level composite task such as navigation and task completion. We attempt to bridge the gap between these two by annotating 86K question-answer pairs over the RICO dataset in hope to benchmark the screen reading comprehension capacity. This work is also the first to annotate answers for different application scenarios, including both full sentences and short forms, as well as supporting UI contents on screen and their bounding boxes. With the rich annotation, we discuss and define the evaluation metrics of the benchmark, show applications of the dataset, and provide a few baselines using closed and open source models.
Abstract（参考訳）: 質問応答による画面コンテンツ理解のための新しいベンチマークとデータセットScreenQAを提案する。既存のスクリーンデータセットは、構造とコンポーネントレベルの理解、あるいはナビゲーションやタスク補完といったより高度な複合タスクに焦点を当てている。我々は,画面読取能力のベンチマークを期待して,86K問合せペアをRICOデータセット上にアノテートすることで,この2つのギャップを埋めようとしている。この作業は、フル文とショートフォームの両方を含むさまざまなアプリケーションシナリオに対するアノテート回答として、スクリーン上のUIコンテンツとバウンディングボックスをサポートする最初のものでもある。リッチアノテーションでは、ベンチマークの評価基準について議論し、データセットの応用例を示し、クローズドおよびオープンソースモデルを使用していくつかのベースラインを提供する。

関連論文リスト

Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
WebQuest: A Benchmark for Multimodal QA on Web Page Sequences [10.008284460456107]
WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
論文参考訳（メタデータ） (2024-09-06T18:44:25Z)
OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。 textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。 textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文参考訳（メタデータ） (2024-08-01T00:00:43Z)
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。 AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。 AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文参考訳（メタデータ） (2024-07-03T17:59:58Z)
GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [47.98821056800437]
クロスプラットフォームなモバイルGUIナビゲーションのためのデータセットであるGUIOdysseyを提示する。 GuiOdysseyは8,334エピソードで構成され、平均15.3ステップで6つのモバイルデバイス、212の異なるアプリ、1,357のアプリの組み合わせをカバーしている。我々は,履歴リサンプラーモジュールを備えた長期横断ナビゲーションのための探索的マルチモーダルエージェントであるOdysseyAgentを開発した。
論文参考訳（メタデータ） (2024-06-12T17:44:26Z)
LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation [8.998467488526327]
本稿では、デバイス上でのモバイルUIタスク実行と、忠実でスケーラブルなタスク評価のためのテストベッドであるLlamaTouchを提案する。 LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をすべてトラバースするかどうかのみを評価する、新しい評価アプローチを採用している。 LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。
論文参考訳（メタデータ） (2024-04-12T15:39:09Z)
SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM [48.15067480282839]
本研究は、エンティティ中心のVQAに特化して開発された、textbfSnapNTellという新しい評価ベンチマークを導入する。データセットは22の主要なカテゴリに分けられ、合計で7,568のユニークなエンティティが含まれている。提案手法はSnapNTellデータセットの既存手法を著しく上回り,BELURTスコアの66.5%向上を達成した。
論文参考訳（メタデータ） (2024-03-07T18:38:17Z)
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文参考訳（メタデータ） (2024-03-07T13:16:24Z)
ScreenAI: A Vision-Language Model for UI and Infographics Understanding [4.914575630736291]
UIとインフォグラフィックの理解を専門とする視覚言語モデルであるScreenAIを紹介する。この混合の核心は、モデルがUI要素のタイプと位置を識別しなければならない新しいスクリーンアノテーションタスクである。これらのテキストアノテーションを使用して、画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。
論文参考訳（メタデータ） (2024-02-07T06:42:33Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video [20.579167394855197]
本稿では,タスクの訓練と評価を行うためのマルチモーダル映像要約タスク設定とデータセットを提案する。対象のタスクは、所定のビデオを複数のキャプチャペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。
論文参考訳（メタデータ） (2023-12-04T02:17:14Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文参考訳（メタデータ） (2023-05-24T07:40:50Z)
Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文参考訳（メタデータ） (2022-07-21T09:23:34Z)
MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文参考訳（メタデータ） (2022-01-25T22:30:54Z)
MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文参考訳（メタデータ） (2021-12-20T18:23:30Z)
Quantifying the Task-Specific Information in Text-Based Classifications [20.148222318025528]
データセットのショートカットは、分類タスクの*task-specific information*(TSI)に寄与しない。本稿では,データセットの分類にタスク固有の情報がどの程度必要かを検討する。このフレームワークはデータセット間の比較を可能にし、"一連のショートカット機能"とは別に、Multi-NLIタスクの各サンプルの分類には、Quora Question Pairよりも約0.4ナットのTSIが含まれている、と述べている。
論文参考訳（メタデータ） (2021-10-17T21:54:38Z)
Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning [34.24671403624908]
Mobile User Interface Summarizationは、画面の重要な内容と機能を伝えるためのモバイル画面の簡潔な言語記述を生成する。そこで我々は,UI画面の基本情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法であるScreen2Wordsを提案する。
論文参考訳（メタデータ） (2021-08-07T03:01:23Z)
Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文参考訳（メタデータ） (2021-05-11T07:45:32Z)
Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文参考訳（メタデータ） (2020-10-20T16:48:14Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。 TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文参考訳（メタデータ） (2020-01-24T17:09:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。