論文の概要: Towards Solving Multimodal Comprehension
- arxiv url: http://arxiv.org/abs/2104.10139v1
- Date: Tue, 20 Apr 2021 17:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:43:05.903951
- Title: Towards Solving Multimodal Comprehension
- Title(参考訳): マルチモーダル理解の解決に向けて
- Authors: Pritish Sahu, Karan Sikka, and Ajay Divakaran
- Abstract要約: 本稿では,M3C(Procedural Multimodal Machine Compprehension)問題について述べる。
このタスクでは、AIがマルチモーダル命令の特定のステップを理解し、質問に答える必要があります。
- 参考スコア(独自算出の注目度): 12.90382979353427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper targets the problem of procedural multimodal machine comprehension
(M3C). This task requires an AI to comprehend given steps of multimodal
instructions and then answer questions. Compared to vanilla machine
comprehension tasks where an AI is required only to understand a textual input,
procedural M3C is more challenging as the AI needs to comprehend both the
temporal and causal factors along with multimodal inputs. Recently Yagcioglu et
al. [35] introduced RecipeQA dataset to evaluate M3C. Our first contribution is
the introduction of two new M3C datasets- WoodworkQA and DecorationQA with 16K
and 10K instructional procedures, respectively. We then evaluate M3C using a
textual cloze style question-answering task and highlight an inherent bias in
the question answer generation method from [35] that enables a naive baseline
to cheat by learning from only answer choices. This naive baseline performs
similar to a popular method used in question answering- Impatient Reader [6]
that uses attention over both the context and the query. We hypothesized that
this naturally occurring bias present in the dataset affects even the best
performing model. We verify our proposed hypothesis and propose an algorithm
capable of modifying the given dataset to remove the bias elements. Finally, we
report our performance on the debiased dataset with several strong baselines.
We observe that the performance of all methods falls by a margin of 8% - 16%
after correcting for the bias. We hope these datasets and the analysis will
provide valuable benchmarks and encourage further research in this area.
- Abstract(参考訳): 本稿では,手続き型マルチモーダルマシン理解問題(m3c)を対象とする。
このタスクには、マルチモーダル命令の所定のステップを理解し、それから質問に答えるaiが必要です。
テキスト入力のみを理解するためにAIが必要なバニラマシン理解タスクと比較して、AIが時間的および因果的要素とマルチモーダル入力の両方を理解する必要があるため、手続き的M3Cはより難しい。
最近、yagcioglu et al。
[35]M3Cを評価するためにRecipeQAデータセットを導入した。
最初のコントリビューションは、WoodworkQAとDecorationQAの2つの新しいM3Cデータセットの導入である。
次に、テキスト・クローゼスタイルの質問応答タスクを用いてM3Cを評価し、[35]からの質問応答生成法に固有のバイアスを強調し、質問応答選択のみから学習することで、素質のベースラインを不正にすることができる。
このナイーブなベースラインは、コンテキストとクエリの両方に注意を向ける質問応答型読み手[6]で使用される一般的な方法と似ています。
データセットに存在するこの自然発生バイアスは、最高のパフォーマンスモデルにも影響を及ぼすと仮定した。
提案した仮説を検証し、与えられたデータセットを修正してバイアス要素を除去できるアルゴリズムを提案する。
最後に、いくつかの強いベースラインを持つdebiasedデータセットのパフォーマンスを報告します。
バイアスを補正した後、すべての手法のパフォーマンスが8%から16%のマージンで低下するのを観察する。
これらのデータセットと分析が貴重なベンチマークを提供し、この分野のさらなる研究を促進することを期待しています。
関連論文リスト
- Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Adaptive loose optimization for robust question answering [21.166930242285446]
適応的疎解最適化を用いた簡易かつ効果的な新規損失関数を提案する。
我々の主な技術的貢献は、前回の最適化状態と現在の最適化状態との比に応じて、損失を適応的に減少させることである。
提案手法は,ほとんどの場合,最先端のin-of-distriion性能とout-of-distriion性能が得られる。
論文 参考訳(メタデータ) (2023-05-06T08:09:46Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Unsupervised Question Answering via Answer Diversifying [44.319944418802095]
そこで我々は,DiverseQAという回答の多様化による新しい教師なし手法を提案する。
提案手法は,データ構築,データ拡張,デノナイジングフィルタの3つのモジュールから構成される。
大規模な実験により,提案手法は5つのベンチマークデータセットにおいて,従来の教師なしモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-08-23T08:57:00Z) - Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark [14.50261153230204]
M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。
大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。
3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-22T16:33:57Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - Self-Teaching Machines to Read and Comprehend with Large-Scale
Multi-Subject Question Answering Data [58.36305373100518]
主観的問合せデータが機械読解作業に有用かどうかは不明である。
大規模多目的多目的質問回答データセットであるExamQAを収集する。
我々は、Web検索エンジンが返す不完全でノイズの多いスニペットを、各質問応答インスタンスの関連するコンテキストとして使用し、弱いラベル付きMRCインスタンスに変換する。
論文 参考訳(メタデータ) (2021-02-01T23:18:58Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。