論文の概要: Are Machines Better at Complex Reasoning? Unveiling Human-Machine
Inference Gaps in Entailment Verification
- arxiv url: http://arxiv.org/abs/2402.03686v2
- Date: Thu, 22 Feb 2024 04:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:54:10.810576
- Title: Are Machines Better at Complex Reasoning? Unveiling Human-Machine
Inference Gaps in Entailment Verification
- Title(参考訳): マシンは複雑な推論に優れているか?
補足検証におけるヒューマンマシン推論のギャップを明らかにする
- Authors: Soumya Sanyal, Tianyi Xiao, Jiacheng Liu, Wenya Wang, Xiang Ren
- Abstract要約: 本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
- 参考スコア(独自算出の注目度): 44.341494720518156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Making inferences in text comprehension to understand the meaning is
essential in language processing. This work studies the entailment verification
(EV) problem of multi-sentence premises that requires a system to make multiple
inferences implicitly. Studying EV for such complex premises is important
because modern NLP problems, such as detecting inconsistent model-generated
rationales, require complex multi-hop reasoning. However, current textual
inference datasets mostly contain short premises that only partially focus on
these challenges. To address this, we compile an EV benchmark that includes
datasets from three NLP domains (NLI, contextual QA, and rationales) containing
multi-sentence premises. On benchmarking humans and LLMs, we find that LLMs are
better than humans in multi-hop reasoning across extended contexts, while
humans perform better in simple deductive reasoning tasks. We also finetune a
Flan-T5 model for EV using two training objectives to obtain a strong
open-source model that outperforms GPT-3.5 and rivals GPT-4. Finally, we use
this model to filter out inconsistent model-generated rationales in
self-consistency decoding, resulting in a 6% accuracy improvement on average
across three MCQ datasets.
- Abstract(参考訳): 意味を理解するためにテキスト理解で推論することは言語処理に不可欠である。
本研究は,複数の推論を暗黙的に行うシステムを必要とするマルチセンテンス前提の補足検証(ev)問題を研究する。
このような複雑な前提に対するevの研究は、一貫性のないモデル生成の合理性の検出のような現代のnlp問題には複雑なマルチホップ推論が必要であるため重要である。
しかしながら、現在のテキスト推論データセットには、これらの課題に部分的にのみフォーカスする短い前提が含まれています。
これを解決するために,多文前提を含む3つのNLPドメイン(NLI,コンテキストQA,合理性)のデータセットを含むEVベンチマークをコンパイルする。
人間とLLMのベンチマークでは、LLMは拡張されたコンテキストをまたいだマルチホップ推論において人間よりも優れており、人間は簡素な推論タスクにおいて優れた性能を発揮する。
また,2つのトレーニング目標を用いてEV用Flan-T5モデルを微調整し,GPT-3.5と競合するGPT-4を上回る強力なオープンソースモデルを得る。
最後に、このモデルを用いて、自己整合性復号における一貫性のないモデル生成論理をフィルタリングし、3つのMCQデータセットの平均で6%の精度向上をもたらす。
関連論文リスト
- Are LLMs Capable of Data-based Statistical and Causal Reasoning?
Benchmarking Advanced Quantitative Reasoning with Data [94.56126023937233]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴って、411の質問を慎重に構築したデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Few-shot learning for automated content analysis: Efficient coding of
arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。
これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。
我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文 参考訳(メタデータ) (2023-12-28T11:39:08Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation and Beyond [32.797832207443896]
大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
論文 参考訳(メタデータ) (2023-06-16T13:39:35Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。