論文の概要: Towards Solving Multimodal Comprehension
- arxiv url: http://arxiv.org/abs/2104.10139v1
- Date: Tue, 20 Apr 2021 17:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:43:05.903951
- Title: Towards Solving Multimodal Comprehension
- Title(参考訳): マルチモーダル理解の解決に向けて
- Authors: Pritish Sahu, Karan Sikka, and Ajay Divakaran
- Abstract要約: 本稿では,M3C(Procedural Multimodal Machine Compprehension)問題について述べる。
このタスクでは、AIがマルチモーダル命令の特定のステップを理解し、質問に答える必要があります。
- 参考スコア(独自算出の注目度): 12.90382979353427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper targets the problem of procedural multimodal machine comprehension
(M3C). This task requires an AI to comprehend given steps of multimodal
instructions and then answer questions. Compared to vanilla machine
comprehension tasks where an AI is required only to understand a textual input,
procedural M3C is more challenging as the AI needs to comprehend both the
temporal and causal factors along with multimodal inputs. Recently Yagcioglu et
al. [35] introduced RecipeQA dataset to evaluate M3C. Our first contribution is
the introduction of two new M3C datasets- WoodworkQA and DecorationQA with 16K
and 10K instructional procedures, respectively. We then evaluate M3C using a
textual cloze style question-answering task and highlight an inherent bias in
the question answer generation method from [35] that enables a naive baseline
to cheat by learning from only answer choices. This naive baseline performs
similar to a popular method used in question answering- Impatient Reader [6]
that uses attention over both the context and the query. We hypothesized that
this naturally occurring bias present in the dataset affects even the best
performing model. We verify our proposed hypothesis and propose an algorithm
capable of modifying the given dataset to remove the bias elements. Finally, we
report our performance on the debiased dataset with several strong baselines.
We observe that the performance of all methods falls by a margin of 8% - 16%
after correcting for the bias. We hope these datasets and the analysis will
provide valuable benchmarks and encourage further research in this area.
- Abstract(参考訳): 本稿では,手続き型マルチモーダルマシン理解問題(m3c)を対象とする。
このタスクには、マルチモーダル命令の所定のステップを理解し、それから質問に答えるaiが必要です。
テキスト入力のみを理解するためにAIが必要なバニラマシン理解タスクと比較して、AIが時間的および因果的要素とマルチモーダル入力の両方を理解する必要があるため、手続き的M3Cはより難しい。
最近、yagcioglu et al。
[35]M3Cを評価するためにRecipeQAデータセットを導入した。
最初のコントリビューションは、WoodworkQAとDecorationQAの2つの新しいM3Cデータセットの導入である。
次に、テキスト・クローゼスタイルの質問応答タスクを用いてM3Cを評価し、[35]からの質問応答生成法に固有のバイアスを強調し、質問応答選択のみから学習することで、素質のベースラインを不正にすることができる。
このナイーブなベースラインは、コンテキストとクエリの両方に注意を向ける質問応答型読み手[6]で使用される一般的な方法と似ています。
データセットに存在するこの自然発生バイアスは、最高のパフォーマンスモデルにも影響を及ぼすと仮定した。
提案した仮説を検証し、与えられたデータセットを修正してバイアス要素を除去できるアルゴリズムを提案する。
最後に、いくつかの強いベースラインを持つdebiasedデータセットのパフォーマンスを報告します。
バイアスを補正した後、すべての手法のパフォーマンスが8%から16%のマージンで低下するのを観察する。
これらのデータセットと分析が貴重なベンチマークを提供し、この分野のさらなる研究を促進することを期待しています。
関連論文リスト
- Language Models Benefit from Preparation with Elicited Knowledge [0.38233569758620056]
ゼロショット・チェーン・オブ・シンキング(CoT)アプローチは言語モデル(LM)による質問応答(QA)によく使用される。
本稿では,LMの2つのインスタンスを使用する,PreprePと呼ばれる単純な汎用的プロンプト手法を提案する。
PrePは、ユーザのドメイン知識から独立して設計されており、特別なプロンプトエンジニアリングを必要とせずに、様々なQAタスクに適用できる。
論文 参考訳(メタデータ) (2024-09-02T15:58:27Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Unsupervised Question Answering via Answer Diversifying [44.319944418802095]
そこで我々は,DiverseQAという回答の多様化による新しい教師なし手法を提案する。
提案手法は,データ構築,データ拡張,デノナイジングフィルタの3つのモジュールから構成される。
大規模な実験により,提案手法は5つのベンチマークデータセットにおいて,従来の教師なしモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-08-23T08:57:00Z) - Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark [14.50261153230204]
M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。
大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。
3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-22T16:33:57Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。