論文の概要: MAQA: A Multimodal QA Benchmark for Negation
- arxiv url: http://arxiv.org/abs/2301.03238v1
- Date: Mon, 9 Jan 2023 10:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:40:23.511899
- Title: MAQA: A Multimodal QA Benchmark for Negation
- Title(参考訳): MAQA: 否定のためのマルチモーダルQAベンチマーク
- Authors: Judith Yue Li, Aren Jansen, Qingqing Huang, Joonseok Lee, Ravi Ganti,
Dima Kuzmin
- Abstract要約: マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる
本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。
モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
- 参考スコア(独自算出の注目度): 12.07804279906535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning can benefit from the representation power of pretrained
Large Language Models (LLMs). However, state-of-the-art transformer based LLMs
often ignore negations in natural language and there is no existing benchmark
to quantitatively evaluate whether multimodal transformers inherit this
weakness. In this study, we present a new multimodal question answering (QA)
benchmark adapted from labeled music videos in AudioSet (Gemmeke et al., 2017)
with the goal of systematically evaluating if multimodal transformers can
perform complex reasoning to recognize new concepts as negation of previously
learned concepts. We show that with standard fine-tuning approach multimodal
transformers are still incapable of correctly interpreting negation
irrespective of model size. However, our experiments demonstrate that
augmenting the original training task distributions with negated QA examples
allow the model to reliably reason with negation. To do this, we describe a
novel data generation procedure that prompts the 540B-parameter PaLM model to
automatically generate negated QA examples as compositions of easily accessible
video tags. The generated examples contain more natural linguistic patterns and
the gains compared to template-based task augmentation approach are
significant.
- Abstract(参考訳): マルチモーダル学習は、事前訓練された大規模言語モデル(LLM)の表現力の恩恵を受けることができる。
しかし、最先端のトランスフォーマーベースのLLMは自然言語の否定を無視することが多く、マルチモーダルトランスフォーマーがこの弱点を継承するかどうかを定量的に評価するベンチマークは存在しない。
本研究では,マルチモーダルトランスフォーマーが従来学習されていた概念の否定として新しい概念を認識するために,複雑な推論を行うことができるかどうかを体系的に評価することを目的として,オーディオセット(gemmeke et al., 2017)のラベル付き音楽ビデオから適応した新しいマルチモーダル質問応答(qa)ベンチマークを提案する。
標準の微調整アプローチでは、マルチモーダルトランスフォーマーはモデルサイズに関係なく、正しく否定を解釈できないことが示されている。
しかし,本実験では,元のトレーニングタスク分布を否定的QA例で拡張することで,否定を確実に推論できることを示した。
そこで本研究では, 540Bパラメータ PaLM モデルに対して, 容易にアクセス可能なビデオタグの合成として, 否定的 QA の例を自動的に生成する新たなデータ生成手法を提案する。
生成された例には、より自然な言語パターンが含まれており、テンプレートベースのタスク拡張アプローチと比較して、利益は大きい。
関連論文リスト
- In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。
我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文 参考訳(メタデータ) (2024-06-04T16:09:13Z) - In-Context Learning for MIMO Equalization Using Transformer-Based
Sequence Models [44.161789477821536]
大規模な事前学習シーケンスモデルには、コンテキスト内学習(ICL)を実行する能力がある
ICLでは、新しい入力に関する決定は、入力の直接マッピングと与えられたタスクからのいくつかの例を通して行われる。
我々は,変圧器をベースとしたICLのしきい値挙動を数値計算により示す。
論文 参考訳(メタデータ) (2023-11-10T15:09:04Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - SCENE: Self-Labeled Counterfactuals for Extrapolating to Negative
Examples [23.77077091225583]
SCENE(Self-labeled Counterfactuals for Extrapolating to Negative Examples)は、学習データを自動合成する手法である。
SCENEは、答え可能なトレーニング例のみにアクセスすることで、SQuAD 2.0のパフォーマンスギャップの69.6%を埋めることができる。
論文 参考訳(メタデータ) (2023-05-13T19:30:58Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Transformer-Based Conditioned Variational Autoencoder for Dialogue
Generation [0.0]
CVAE構造を持つTransformerに基づく新たな対話モデル(CVAE-T)を作成する。
我々は、事前訓練されたモデルを用いて、いくつかのキー n-gram を応答で書き直し、一連の負の例を得る。
論文 参考訳(メタデータ) (2022-10-22T01:57:16Z) - Contrastive Learning with Adversarial Perturbations for Conditional Text
Generation [49.055659008469284]
seq2seqモデルのコントラスト学習のための正負のサンプルを生成する原則的な方法を提案する。
具体的には、入力シーケンスに小さな摂動を加えることで、条件付き可能性を最小限に抑えるネガティブな例を生成します。
提案手法は,3つのテキスト生成タスクにおけるSeq2seqの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-12-14T06:20:27Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。