論文の概要: Teaching Broad Reasoning Skills via Decomposition-Guided Contexts
- arxiv url: http://arxiv.org/abs/2205.12496v1
- Date: Wed, 25 May 2022 05:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 12:27:18.258047
- Title: Teaching Broad Reasoning Skills via Decomposition-Guided Contexts
- Title(参考訳): 分解誘導による広帯域推論スキルの指導
- Authors: Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal
- Abstract要約: 質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
- 参考スコア(独自算出の注目度): 50.114651561111245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question-answering datasets require a broad set of reasoning skills. We show
how to use question decompositions to teach language models these broad
reasoning skills in a robust fashion. Specifically, we use widely available
QDMR representations to programmatically create synthetic contexts for real
questions in six multihop reasoning datasets. These contexts are carefully
designed to avoid common reasoning shortcuts prevalent in real contexts that
prevent models from learning the right skills. This results in a pretraining
dataset, named TeaBReaC, containing 525K multihop questions (with associated
formal programs) covering about 900 reasoning patterns. We show that
pretraining standard language models (LMs) on TeaBReaC before fine-tuning them
on target datasets improves their performance by up to 13 EM points across 3
multihop QA datasets, with a 30 point gain on more complex questions. The
resulting models also demonstrate higher robustness, with a 6-11 point
improvement on two contrast sets. Furthermore, TeaBReaC pretraining
substantially improves model performance and robustness even when starting with
numeracy-aware LMs pretrained using recent methods (e.g., PReasM). Our work
thus shows how one can effectively use decomposition-guided contexts to
robustly teach multihop reasoning.
- Abstract(参考訳): 質問応答データセットは、幅広い推論スキルを必要とする。
質問分解を用いて、これらの広い推論スキルを堅牢な方法で言語モデルを教える方法を示す。
具体的には、利用可能なQDMR表現を用いて、6つのマルチホップ推論データセットにおいて、実際の質問に対する合成コンテキストをプログラム的に生成する。
これらのコンテキストは、モデルが適切なスキルを学ぶことを妨げる実際のコンテキストに共通する推論ショートカットを避けるために慎重に設計されている。
その結果、およそ900の推論パターンをカバーする525kのマルチホップ質問(関連する形式的プログラムを含む)を含む、事前学習データセットteabreacが誕生した。
本研究では,TeaBReaC上での標準言語モデル(LM)の事前トレーニングを目標データセット上で微調整することで,3つのマルチホップQAデータセット間で最大13 EMポイントの性能向上を実現し,より複雑な質問に対して30ポイント向上することを示す。
結果として得られたモデルは、2つのコントラストセットで6-11ポイント改善され、より高いロバスト性を示す。
さらに、TeaBReaC事前学習は、最近の手法(例えばPReasM)で事前訓練された数値対応LMから始めると、モデル性能と堅牢性を大幅に向上する。
そこで本研究では,マルチホップ推論を頑健に教えるために,分解誘導コンテキストを効果的に利用できることを示す。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - Investigating the Efficacy of Large Language Models in Reflective
Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。
本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文 参考訳(メタデータ) (2023-09-30T06:25:27Z) - Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval [9.136948771060895]
この設定でさらに改善する2つの方法を評価する。
どちらも、より大きな言語モデルによって生成された合理性と、マルチホップ密度検索システムから生成された長いコンテキストを組み合わせることに焦点を当てている。
我々の最高の推論モデルは、見当たらない評価データセットに対して、強い比較前のベースラインを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-09T05:06:39Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - How Well Do Multi-hop Reading Comprehension Models Understand Date
Information? [31.243088887839257]
比較問題に対する解答を見つける際に、複数のホップモデルがステップバイステップの推論を行う能力は、まだ不明である。
また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは、不明である。
論文 参考訳(メタデータ) (2022-10-11T07:24:07Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。