論文の概要: Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering
- arxiv url: http://arxiv.org/abs/2209.09513v1
- Date: Tue, 20 Sep 2022 07:04:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:27:17.019881
- Title: Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering
- Title(参考訳): 説明に学ぶ:科学質問応答のための思考連鎖によるマルチモーダル推論
- Authors: Pan Lu, Swaroop Mishra, Tony Xia, Liang Qiu, Kai-Wei Chang, Song-Chun
Zhu, Oyvind Tafjord, Peter Clark, Ashwin Kalyan
- Abstract要約: 本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
- 参考スコア(独自算出の注目度): 124.16250115608604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When answering a question, humans utilize the information available across
different modalities to synthesize a consistent and complete chain of thought
(CoT). This process is normally a black box in the case of deep learning models
like large-scale language models. Recently, science question benchmarks have
been used to diagnose the multi-hop reasoning ability and interpretability of
an AI system. However, existing datasets fail to provide annotations for the
answers, or are restricted to the textual-only modality, small scales, and
limited domain diversity. To this end, we present Science Question Answering
(SQA), a new benchmark that consists of ~21k multimodal multiple choice
questions with a diverse set of science topics and annotations of their answers
with corresponding lectures and explanations. We further design language models
to learn to generate lectures and explanations as the chain of thought (CoT) to
mimic the multi-hop reasoning process when answering SQA questions. SQA
demonstrates the utility of CoT in language models, as CoT improves the
question answering performance by 1.20% in few-shot GPT-3 and 3.99% in
fine-tuned UnifiedQA. We also explore the upper bound for models to leverage
explanations by feeding those in the input; we observe that it improves the
few-shot performance of GPT-3 by 18.96%. Our analysis further shows that
language models, similar to humans, benefit from explanations to learn from
fewer data and achieve the same performance with just 40% of the data.
- Abstract(参考訳): 質問に答える際、人間は様々なモダリティで利用可能な情報を利用して、一貫性のある完全な思考の連鎖(CoT)を合成する。
このプロセスは通常、大規模言語モデルのようなディープラーニングモデルの場合、ブラックボックスになります。
近年、AIシステムのマルチホップ推論能力と解釈可能性の診断に科学質問ベンチマークが使用されている。
しかし、既存のデータセットは回答に対するアノテーションを提供できないか、テキストのみのモダリティ、小さなスケール、ドメインの多様性に制限されている。
そこで本研究では,21kのマルチモーダル・マルチチョイス質問と,科学トピックの多種多様な集合と,それらの回答の注釈と対応する講義や説明からなる,新たなベンチマークであるscience question answering(sqa)を提案する。
我々はさらに言語モデルを設計し、SQA質問に答える際のマルチホップ推論過程を模倣する思考の連鎖(CoT)として講義や説明を生成することを学ぶ。
SQA は言語モデルにおける CoT の有用性を示し、CoT は数ショット GPT-3 では 1.20%、微調整 UnifiedQA では 3.99% の回答性能を改善している。
また,GPT-3の少数ショット性能を18.96%向上させるため,入力中のモデルに入力を供給して説明を活用できる上限についても検討した。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するために、説明の恩恵を受けることを示している。
関連論文リスト
- STOC-TOT: Stochastic Tree-of-Thought with Constrained Decoding for Complex Reasoning in Multi-Hop Question Answering [8.525847131940031]
マルチホップ質問応答(MHQA)は、複雑な質問に答えるために複数の通路から情報を検索し統合するモデルを必要とする。
近年のシステムでは、大規模言語モデルのパワーを活用し、証拠検索と推論のプロンプトを統合している。
MHQAの制約付き復号法であるSTOC-TOTを提案する。
論文 参考訳(メタデータ) (2024-07-04T07:17:53Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Understanding and Improving Zero-shot Multi-hop Reasoning in Generative
Question Answering [85.79940770146557]
マルチホップ質問を複数の単一ホップ質問に分解する。
これらの対の見かけ上同一の問合せ連鎖について、QAモデルの答えに顕著な矛盾が認められる。
シングルホップの質問だけを訓練すると、モデルはマルチホップの質問に対してあまり一般化しない。
論文 参考訳(メタデータ) (2022-10-09T11:48:07Z) - Zero-shot Commonsense Question Answering with Cloze Translation and
Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。
提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-01T07:12:49Z) - Learning to Explain: Datasets and Models for Identifying Valid Reasoning
Chains in Multihop Question-Answering [28.67167530758428]
コーパス事実から生成された説明に注釈を付ける3つのデータセットを紹介した。
eQASCには、マルチホップ質問応答データセットQASCのための98K以上の説明アノテーションが含まれている。
eQASCの摂動はクラウドソーシングによる摂動によって構築され、一貫性と説明予測モデルの一般化をテストする。
eOBQAは、eQASCでトレーニングされたモデルの一般化をテストするために、OBQAデータセットに説明アノテーションを追加することで構築される。
論文 参考訳(メタデータ) (2020-10-07T08:46:02Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。