論文の概要: Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark
- arxiv url: http://arxiv.org/abs/2110.11899v1
- Date: Fri, 22 Oct 2021 16:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:55:07.369523
- Title: Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark
- Title(参考訳): 手続き型マルチモーダルマシン理解の課題:ベンチマークの新しい方法
- Authors: Pritish Sahu, Karan Sikka, Ajay Divakaran
- Abstract要約: M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。
大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。
3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
- 参考スコア(独自算出の注目度): 14.50261153230204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on Multimodal Machine Reading Comprehension (M3C) where a model is
expected to answer questions based on given passage (or context), and the
context and the questions can be in different modalities. Previous works such
as RecipeQA have proposed datasets and cloze-style tasks for evaluation.
However, we identify three critical biases stemming from the question-answer
generation process and memorization capabilities of large deep models. These
biases makes it easier for a model to overfit by relying on spurious
correlations or naive data patterns. We propose a systematic framework to
address these biases through three Control-Knobs that enable us to generate a
test bed of datasets of progressive difficulty levels. We believe that our
benchmark (referred to as Meta-RecipeQA) will provide, for the first time, a
fine grained estimate of a model's generalization capabilities. We also propose
a general M3C model that is used to realize several prior SOTA models and
motivate a novel hierarchical transformer based reasoning network (HTRN). We
perform a detailed evaluation of these models with different language and
visual features on our benchmark. We observe a consistent improvement with HTRN
over SOTA (~18% in Visual Cloze task and ~13% in average over all the tasks).
We also observe a drop in performance across all the models when testing on
RecipeQA and proposed Meta-RecipeQA (e.g. 83.6% versus 67.1% for HTRN), which
shows that the proposed dataset is relatively less biased. We conclude by
highlighting the impact of the control knobs with some quantitative results.
- Abstract(参考訳): 我々は、与えられた文(または文脈)に基づいて、モデルが質問に答えることを期待するマルチモーダル機械読解理解(M3C)に焦点を当て、その文脈と質問は異なるモダリティで得る。
RecipeQAのような以前の研究は、評価のためのデータセットとクローゼスタイルのタスクを提案している。
しかし,大深度モデルの問合せ生成過程と記憶能力から生じる3つの重要なバイアスを同定する。
これらのバイアスは、素早い相関や単純なデータパターンに頼ることによって、モデルが過度に適合することを容易にする。
3つの制御ノブによってこれらのバイアスに対処する体系的なフレームワークを提案し、プログレッシブな難易度を持つデータセットの試験ベッドを生成する。
当社のベンチマーク(Meta-RecipeQA)は,モデルの一般化能力の詳細な評価を初めて提供するものだと考えています。
また,いくつかのsomaモデルを実現し,新しい階層的トランスフォーマベース推論ネットワーク(htrn)を動機付ける汎用m3cモデルを提案する。
ベンチマークで、異なる言語と視覚的特徴を持つこれらのモデルの詳細な評価を行う。
我々は、HTRNによるSOTAに対する一貫した改善(Visual Clozeタスクでは18%、すべてのタスクでは平均13%)を観察した。
また、RecipeQAでテストする場合、すべてのモデルのパフォーマンスが低下し、Meta-RecipeQA(例えば、HTRNでは83.6%対67.1%)を提案する。
その結果, 制御ノブの影響を定量的に明らかにした。
関連論文リスト
- Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Towards Solving Multimodal Comprehension [12.90382979353427]
本稿では,M3C(Procedural Multimodal Machine Compprehension)問題について述べる。
このタスクでは、AIがマルチモーダル命令の特定のステップを理解し、質問に答える必要があります。
論文 参考訳(メタデータ) (2021-04-20T17:30:27Z) - SRQA: Synthetic Reader for Factoid Question Answering [21.28441702154528]
我々はSRQAと呼ばれる新しいモデルを導入し、これはFactoid Question AnsweringのためのSynthetic Readerを意味する。
このモデルは,多文書シナリオにおける質問応答システムを3つの側面から強化する。
WebQAデータセット上でSRQAを行い、実験により、我々のモデルが最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-02T13:16:24Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。