論文の概要: Are Machines Better at Complex Reasoning? Unveiling Human-Machine
Inference Gaps in Entailment Verification
- arxiv url: http://arxiv.org/abs/2402.03686v2
- Date: Thu, 22 Feb 2024 04:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:54:10.810576
- Title: Are Machines Better at Complex Reasoning? Unveiling Human-Machine
Inference Gaps in Entailment Verification
- Title(参考訳): マシンは複雑な推論に優れているか?
補足検証におけるヒューマンマシン推論のギャップを明らかにする
- Authors: Soumya Sanyal, Tianyi Xiao, Jiacheng Liu, Wenya Wang, Xiang Ren
- Abstract要約: 本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
- 参考スコア(独自算出の注目度): 44.341494720518156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Making inferences in text comprehension to understand the meaning is
essential in language processing. This work studies the entailment verification
(EV) problem of multi-sentence premises that requires a system to make multiple
inferences implicitly. Studying EV for such complex premises is important
because modern NLP problems, such as detecting inconsistent model-generated
rationales, require complex multi-hop reasoning. However, current textual
inference datasets mostly contain short premises that only partially focus on
these challenges. To address this, we compile an EV benchmark that includes
datasets from three NLP domains (NLI, contextual QA, and rationales) containing
multi-sentence premises. On benchmarking humans and LLMs, we find that LLMs are
better than humans in multi-hop reasoning across extended contexts, while
humans perform better in simple deductive reasoning tasks. We also finetune a
Flan-T5 model for EV using two training objectives to obtain a strong
open-source model that outperforms GPT-3.5 and rivals GPT-4. Finally, we use
this model to filter out inconsistent model-generated rationales in
self-consistency decoding, resulting in a 6% accuracy improvement on average
across three MCQ datasets.
- Abstract(参考訳): 意味を理解するためにテキスト理解で推論することは言語処理に不可欠である。
本研究は,複数の推論を暗黙的に行うシステムを必要とするマルチセンテンス前提の補足検証(ev)問題を研究する。
このような複雑な前提に対するevの研究は、一貫性のないモデル生成の合理性の検出のような現代のnlp問題には複雑なマルチホップ推論が必要であるため重要である。
しかしながら、現在のテキスト推論データセットには、これらの課題に部分的にのみフォーカスする短い前提が含まれています。
これを解決するために,多文前提を含む3つのNLPドメイン(NLI,コンテキストQA,合理性)のデータセットを含むEVベンチマークをコンパイルする。
人間とLLMのベンチマークでは、LLMは拡張されたコンテキストをまたいだマルチホップ推論において人間よりも優れており、人間は簡素な推論タスクにおいて優れた性能を発揮する。
また,2つのトレーニング目標を用いてEV用Flan-T5モデルを微調整し,GPT-3.5と競合するGPT-4を上回る強力なオープンソースモデルを得る。
最後に、このモデルを用いて、自己整合性復号における一貫性のないモデル生成論理をフィルタリングし、3つのMCQデータセットの平均で6%の精度向上をもたらす。
関連論文リスト
- Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI [0.0]
本研究では,大規模言語モデル(LLM)の有効性について検討した。
モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。
回答者の66%がGPT-3.5の説明を「良い」か「優れている」と評価した。
論文 参考訳(メタデータ) (2024-07-04T09:38:49Z) - Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-24T23:02:56Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。