論文の概要: MPMQA: Multimodal Question Answering on Product Manuals
- arxiv url: http://arxiv.org/abs/2304.09660v1
- Date: Wed, 19 Apr 2023 13:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 14:12:41.069382
- Title: MPMQA: Multimodal Question Answering on Product Manuals
- Title(参考訳): MPMQA: プロダクトマニュアルに関するマルチモーダルな質問
- Authors: Liang Zhang, Anwen Hu, Jing Zhang, Shuo Hu, Qin Jin
- Abstract要約: マルチモーダルコンテンツの重要性を強調するために,MPMQA(Multimodal Product Manual Question Answering)タスクを提案する。
各質問に対して、MPMQAは、マルチモーダルなコンテンツを処理するだけでなく、マルチモーダルな回答を提供するためにモデルを必要とします。
MPMQAをサポートするために、大規模なデータセットPM209は、209の製品マニュアルを含むヒューマンアノテーションで構築されている。
- 参考スコア(独自算出の注目度): 49.18592577949957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual contents, such as illustrations and images, play a big role in product
manual understanding. Existing Product Manual Question Answering (PMQA)
datasets tend to ignore visual contents and only retain textual parts. In this
work, to emphasize the importance of multimodal contents, we propose a
Multimodal Product Manual Question Answering (MPMQA) task. For each question,
MPMQA requires the model not only to process multimodal contents but also to
provide multimodal answers. To support MPMQA, a large-scale dataset PM209 is
constructed with human annotations, which contains 209 product manuals from 27
well-known consumer electronic brands. Human annotations include 6 types of
semantic regions for manual contents and 22,021 pairs of question and answer.
Especially, each answer consists of a textual sentence and related visual
regions from manuals. Taking into account the length of product manuals and the
fact that a question is always related to a small number of pages, MPMQA can be
naturally split into two subtasks: retrieving most related pages and then
generating multimodal answers. We further propose a unified model that can
perform these two subtasks all together and achieve comparable performance with
multiple task-specific models. The PM209 dataset is available at
https://github.com/AIM3-RUC/MPMQA.
- Abstract(参考訳): イラストや画像などのビジュアルコンテンツは、製品のマニュアル理解において大きな役割を果たす。
既存の製品マニュアル質問応答(pmqa)データセットは、視覚コンテンツを無視してテキスト部分のみを保持する傾向がある。
本稿では,マルチモーダルコンテンツの重要性を強調するために,MPMQA(Multimodal Product Manual Question Answering)タスクを提案する。
各質問に対してmpmqaは、マルチモーダルなコンテンツを処理するだけでなく、マルチモーダルな回答を提供するモデルを要求する。
MPMQAをサポートするために、大規模なデータセットPM209は、よく知られた27の消費者電子ブランドの209の製品マニュアルを含む、人間のアノテーションで構築されている。
人間のアノテーションには、手動コンテンツ用の6種類の意味領域と22,021対の質問と回答が含まれる。
特に、各回答はマニュアルからテキスト文と関連する視覚領域から構成される。
製品マニュアルの長さと質問が常に少数のページと関連しているという事実を考慮して、MPMQAは自然に2つのサブタスクに分けることができる。
さらに,これら2つのサブタスクをまとめて実行し,複数のタスク固有モデルで同等の性能を実現する統一モデルを提案する。
PM209データセットはhttps://github.com/AIM3-RUC/MPMQAで公開されている。
関連論文リスト
- DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning [2.4121373594852846]
マルチタスク学習は、視覚的なタスクが、共同トレーニング中に他のタスクから豊富な共有可能な知識を取得するようにする。
上記の問題に対処するために, Heterogenous data video multi-task prompt learning (VMTL) 法を提案する。
Double-Layers Mapper(DLM)は、共有可能な知識を視覚的プロンプトSに抽出し、プライマリタスクの表現と整合させる。
論文 参考訳(メタデータ) (2024-08-29T01:25:36Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering [7.367945534481411]
テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。
実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
論文 参考訳(メタデータ) (2021-12-06T07:58:53Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - AnswerQuest: A System for Generating Question-Answer Items from
Multi-Paragraph Documents [1.0896567381206712]
本稿では,質問応答タスク(QA)と質問生成タスク(QG)を統合し,複数のパラグラフ文書の内容を伝えるQ&A項目を生成するシステムについてデモする。
両タスクの改善をもたらすQAとQGに関するいくつかの実験を報告し、テキストのQ&A項目のリストを作成するための相互作用を評価します。
論文 参考訳(メタデータ) (2021-03-05T17:36:04Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Document Modeling with Graph Attention Networks for Multi-grained
Machine Reading Comprehension [127.3341842928421]
Natural Questionsは、新しい挑戦的な機械読解ベンチマークである。
解答は2つあり、長解(典型的には1段落)と短解(長解の内にある1つ以上の実体)である。
既存の方法は、これらの2つのサブタスクをトレーニング中に個別に扱い、依存関係を無視します。
本稿では,文書を階層的にモデル化する多層機械読解フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-12T14:20:09Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。