論文の概要: LogiQA: A Challenge Dataset for Machine Reading Comprehension with
Logical Reasoning
- arxiv url: http://arxiv.org/abs/2007.08124v1
- Date: Thu, 16 Jul 2020 05:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:07:35.858993
- Title: LogiQA: A Challenge Dataset for Machine Reading Comprehension with
Logical Reasoning
- Title(参考訳): LogiQA: 論理推論による機械読み取り理解のための課題データセット
- Authors: Jian Liu, Leyang Cui, Hanmeng Liu, Dandan Huang, Yile Wang, Yue Zhang
- Abstract要約: 私たちは、人間の論理的推論をテストするための専門家による質問から得られた、LogiQAという名前の包括的なデータセットを構築します。
その結果、最先端のニューラルモデルでは、人間の天井よりもはるかにパフォーマンスが悪いことが判明した。
我々のデータセットは、ディープラーニングNLP設定下で論理AIを再調査するためのベンチマークとしても機能する。
- 参考スコア(独自算出の注目度): 20.81312285957089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine reading is a fundamental task for testing the capability of natural
language understanding, which is closely related to human cognition in many
aspects. With the rising of deep learning techniques, algorithmic models rival
human performances on simple QA, and thus increasingly challenging machine
reading datasets have been proposed. Though various challenges such as evidence
integration and commonsense knowledge have been integrated, one of the
fundamental capabilities in human reading, namely logical reasoning, is not
fully investigated. We build a comprehensive dataset, named LogiQA, which is
sourced from expert-written questions for testing human Logical reasoning. It
consists of 8,678 QA instances, covering multiple types of deductive reasoning.
Results show that state-of-the-art neural models perform by far worse than
human ceiling. Our dataset can also serve as a benchmark for reinvestigating
logical AI under the deep learning NLP setting. The dataset is freely available
at https://github.com/lgw863/LogiQA-dataset
- Abstract(参考訳): 機械読解は自然言語理解の能力をテストするための基本的なタスクであり、多くの側面において人間の認識と密接に関連している。
ディープラーニング技術の増加に伴い、アルゴリズムモデルは単純なQA上での人間のパフォーマンスに対抗し、ますます困難な機械学習データセットが提案されている。
エビデンス統合や常識知識といった様々な課題が統合されているが、人間の読書における基本的な能力である論理的推論は十分に研究されていない。
私たちは、人間の論理的推論をテストするための専門家による質問から得られた、LogiQAという名前の包括的なデータセットを構築します。
8,678のqaインスタンスで構成され、複数の推論タイプをカバーする。
その結果、最先端のニューラルモデルは人間の天井よりもはるかに悪い結果が得られた。
我々のデータセットは、ディープラーニングNLP設定下で論理AIを再調査するためのベンチマークとしても機能する。
データセットはhttps://github.com/lgw863/logiqa-datasetで無料で利用できる。
関連論文リスト
- Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset [38.99073257782012]
本研究では,中国の高等学校における円錐部分の数学問題データセットであるConic10Kを提案する。
我々のデータセットは、様々な推論深度を持つ様々な問題を含むが、円錐部分からの知識は必要である。
各問題に対して、高品質な形式表現、推論ステップ、最終解を提供する。
論文 参考訳(メタデータ) (2023-11-09T02:58:17Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - On Explainability in AI-Solutions: A Cross-Domain Survey [4.394025678691688]
システムモデルを自動的に導出する際、AIアルゴリズムは人間には検出できないデータで関係を学習する。
モデルが複雑になればなるほど、人間が意思決定の理由を理解するのが難しくなる。
この研究は、この話題に関する広範な文献調査を提供し、その大部分は、他の調査から成っている。
論文 参考訳(メタデータ) (2022-10-11T06:21:47Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。