論文の概要: Minds versus Machines: Rethinking Entailment Verification with Language
Models
- arxiv url: http://arxiv.org/abs/2402.03686v1
- Date: Tue, 6 Feb 2024 04:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:44:01.493044
- Title: Minds versus Machines: Rethinking Entailment Verification with Language
Models
- Title(参考訳): Minds vs. Machines: 言語モデルによる詳細検証の再考
- Authors: Soumya Sanyal, Tianyi Xiao, Jiacheng Liu, Wenya Wang, Xiang Ren
- Abstract要約: 人・大言語モデル(LLM)の性能を様々な推論カテゴリで評価する。
以上の結果から,LLMsのマルチホップ推論における優位性は,人間は単純な帰納的推論を必要とするタスクに優れていた。
我々は,GPT-3.5やGPT-4と競合する細調整T5モデルを導入し,包括検証のための堅牢なオープンソースソリューションを提供する。
- 参考スコア(独自算出の注目度): 44.341494720518156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans make numerous inferences in text comprehension to understand
discourse. This paper aims to understand the commonalities and disparities in
the inference judgments between humans and state-of-the-art Large Language
Models (LLMs). Leveraging a comprehensively curated entailment verification
benchmark, we evaluate both human and LLM performance across various reasoning
categories. Our benchmark includes datasets from three categories (NLI,
contextual QA, and rationales) that include multi-sentence premises and
different knowledge types, thereby evaluating the inference capabilities in
complex reasoning instances. Notably, our findings reveal LLMs' superiority in
multi-hop reasoning across extended contexts, while humans excel in tasks
necessitating simple deductive reasoning. Leveraging these insights, we
introduce a fine-tuned Flan-T5 model that outperforms GPT-3.5 and rivals with
GPT-4, offering a robust open-source solution for entailment verification. As a
practical application, we showcase the efficacy of our finetuned model in
enhancing self-consistency in model-generated explanations, resulting in a 6%
performance boost on average across three multiple-choice question-answering
datasets.
- Abstract(参考訳): 人間は会話を理解するためにテキスト理解において多くの推論を行う。
本稿では,人間と最先端の大規模言語モデル(llm)間の推論判断の共通性と相違を理解することを目的とする。
包括的にキュレートされたentailment testベンチマークを利用して、さまざまな推論カテゴリで人間とLLMのパフォーマンスを評価する。
本ベンチマークでは,3つのカテゴリ(NLI,コンテキストQA,合理性)のデータセットを多文の前提と異なる知識タイプに含め,複雑な推論インスタンスにおける推論能力の評価を行う。
以上の結果から,LLMs は長期にわたるマルチホップ推論において優れており,人間は簡素な帰納的推論を必要とするタスクに優れていた。
これらの知見を活かして、GPT-3.5やGPT-4と競合するFlan-T5モデルを微調整し、包含検証のための堅牢なオープンソースソリューションを提供する。
実用的応用として、モデル生成説明における自己整合性を高めるための微調整モデルの有効性を示す。
関連論文リスト
- Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI [0.0]
本研究では,大規模言語モデル(LLM)の有効性について検討した。
モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。
回答者の66%がGPT-3.5の説明を「良い」か「優れている」と評価した。
論文 参考訳(メタデータ) (2024-07-04T09:38:49Z) - Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-24T23:02:56Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。