論文の概要: ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots
- arxiv url: http://arxiv.org/abs/2209.08199v1
- Date: Fri, 16 Sep 2022 23:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:31:35.715667
- Title: ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots
- Title(参考訳): ScreenQA: モバイルアプリのスクリーンショットに関する大規模質問応答ペア
- Authors: Yu-Chung Hsiao, Fedir Zubach, Maria Wang, Jindong (JD) Chen
- Abstract要約: 質問応答による画面コンテンツ理解のための新しいタスクとデータセットScreenQAを提案する。
既存のスクリーンデータセットは、構造とコンポーネントレベルの理解、あるいはナビゲーションやタスク補完といったより高度な複合タスクに焦点を当てている。
画面読取能力のベンチマークを期待するために、この2つのギャップをRICOデータセットに8万以上の質問応答ペアを注釈付けして埋めようとしている。
- 参考スコア(独自算出の注目度): 0.9558392439655015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new task and dataset, ScreenQA, for screen content understanding
via question answering. The existing screen datasets are focused either on
structure and component-level understanding, or on a much higher-level
composite task such as navigation and task completion. We attempt to bridge the
gap between these two by annotating 80,000+ question-answer pairs over the RICO
dataset in hope to benchmark the screen reading comprehension capacity.
- Abstract(参考訳): 質問応答による画面コンテンツ理解のための新しいタスクとデータセットScreenQAを提案する。
既存のスクリーンデータセットは、構造とコンポーネントレベルの理解、あるいはナビゲーションやタスク補完といったより高度な複合タスクに焦点を当てている。
画面読取能力のベンチマークを期待するために、この2つのギャップをRICOデータセットに8万以上の質問応答ペアを注釈付けして埋めようとしている。
関連論文リスト
- SnapNTell: Enhancing Entity-Centric Visual Question Answering with
Retrieval Augmented Multimodal LLM [48.15067480282839]
本研究は、エンティティ中心のVQAに特化して開発された、textbfSnapNTellという新しい評価ベンチマークを導入する。
データセットは22の主要なカテゴリに分けられ、合計で7,568のユニークなエンティティが含まれている。
提案手法はSnapNTellデータセットの既存手法を著しく上回り,BELURTスコアの66.5%向上を達成した。
論文 参考訳(メタデータ) (2024-03-07T18:38:17Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Multimodal Inverse Cloze Task for Knowledge-based Visual Question
Answering [4.114444605090133]
名前付きエンティティに関する知識に基づく視覚質問応答のための事前学習手法であるMultimodal Inverse Cloze Taskを提案する。
KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。
提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 9%の相対MRR, 15%の相対F1ゲインが検索および読解に有効である。
論文 参考訳(メタデータ) (2023-01-11T09:16:34Z) - Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model [0.0]
視覚的質問応答のような多目的タスクの現在のアーキテクチャは、その複雑さに悩まされている。
特徴抽出器の微調整を必要としないCLIPアーキテクチャを提案する。
VizWiz 2022 Visual Question Answering Challenge: Predict Answer to a Visual Question and AP score of 83.78 % on Task 2: Predict Answerability of a Visual Question。
論文 参考訳(メタデータ) (2022-06-10T07:03:52Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants [4.322454918650574]
MMIU(MultiModal Intent Understanding)と呼ばれる新しいデータセットは、画像を見ながら人間のアノテータが提供する質問やそれに対応する意図を含む。
そして、このデータセットをマルチモーダルデジタルアシスタントの意図分類タスクに使用します。
論文 参考訳(メタデータ) (2021-10-13T00:57:05Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。