論文の概要: Minds versus Machines: Rethinking Entailment Verification with Language
Models
- arxiv url: http://arxiv.org/abs/2402.03686v1
- Date: Tue, 6 Feb 2024 04:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:44:01.493044
- Title: Minds versus Machines: Rethinking Entailment Verification with Language
Models
- Title(参考訳): Minds vs. Machines: 言語モデルによる詳細検証の再考
- Authors: Soumya Sanyal, Tianyi Xiao, Jiacheng Liu, Wenya Wang, Xiang Ren
- Abstract要約: 人・大言語モデル(LLM)の性能を様々な推論カテゴリで評価する。
以上の結果から,LLMsのマルチホップ推論における優位性は,人間は単純な帰納的推論を必要とするタスクに優れていた。
我々は,GPT-3.5やGPT-4と競合する細調整T5モデルを導入し,包括検証のための堅牢なオープンソースソリューションを提供する。
- 参考スコア(独自算出の注目度): 44.341494720518156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans make numerous inferences in text comprehension to understand
discourse. This paper aims to understand the commonalities and disparities in
the inference judgments between humans and state-of-the-art Large Language
Models (LLMs). Leveraging a comprehensively curated entailment verification
benchmark, we evaluate both human and LLM performance across various reasoning
categories. Our benchmark includes datasets from three categories (NLI,
contextual QA, and rationales) that include multi-sentence premises and
different knowledge types, thereby evaluating the inference capabilities in
complex reasoning instances. Notably, our findings reveal LLMs' superiority in
multi-hop reasoning across extended contexts, while humans excel in tasks
necessitating simple deductive reasoning. Leveraging these insights, we
introduce a fine-tuned Flan-T5 model that outperforms GPT-3.5 and rivals with
GPT-4, offering a robust open-source solution for entailment verification. As a
practical application, we showcase the efficacy of our finetuned model in
enhancing self-consistency in model-generated explanations, resulting in a 6%
performance boost on average across three multiple-choice question-answering
datasets.
- Abstract(参考訳): 人間は会話を理解するためにテキスト理解において多くの推論を行う。
本稿では,人間と最先端の大規模言語モデル(llm)間の推論判断の共通性と相違を理解することを目的とする。
包括的にキュレートされたentailment testベンチマークを利用して、さまざまな推論カテゴリで人間とLLMのパフォーマンスを評価する。
本ベンチマークでは,3つのカテゴリ(NLI,コンテキストQA,合理性)のデータセットを多文の前提と異なる知識タイプに含め,複雑な推論インスタンスにおける推論能力の評価を行う。
以上の結果から,LLMs は長期にわたるマルチホップ推論において優れており,人間は簡素な帰納的推論を必要とするタスクに優れていた。
これらの知見を活かして、GPT-3.5やGPT-4と競合するFlan-T5モデルを微調整し、包含検証のための堅牢なオープンソースソリューションを提供する。
実用的応用として、モデル生成説明における自己整合性を高めるための微調整モデルの有効性を示す。
関連論文リスト
- Are LLMs Capable of Data-based Statistical and Causal Reasoning?
Benchmarking Advanced Quantitative Reasoning with Data [94.56126023937233]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴って、411の質問を慎重に構築したデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Few-shot learning for automated content analysis: Efficient coding of
arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。
これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。
我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文 参考訳(メタデータ) (2023-12-28T11:39:08Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation and Beyond [32.797832207443896]
大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
論文 参考訳(メタデータ) (2023-06-16T13:39:35Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。