論文の概要: A Systematic Evaluation of Large Language Models on Out-of-Distribution
Logical Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2310.09430v3
- Date: Wed, 18 Oct 2023 22:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 11:35:51.885329
- Title: A Systematic Evaluation of Large Language Models on Out-of-Distribution
Logical Reasoning Tasks
- Title(参考訳): 分布外論理推論課題における大規模言語モデルの体系的評価
- Authors: Qiming Bao, Gael Gendron, Alex Yuxuan Peng, Wanjun Zhong, Neset Tan,
Yang Chen, Michael Witbrock, Jiamou Liu
- Abstract要約: 我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを提案する。
単純なトリックが言語モデルの性能を著しく損なうことを示す。
そこで本研究では,大規模学習セットの摂動によるタスク変動の導入により,論理的推論タスクにおけるモデルの一般化とロバスト性を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 26.594772352365553
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs), such as GPT-3.5 and GPT-4, have greatly
advanced the performance of artificial systems on various natural language
processing tasks to human-like levels. However, their generalisation and
robustness to perform logical reasoning remain under-evaluated. To probe this
ability, we propose three new logical reasoning datasets named "ReClor-plus",
"LogiQA-plus" and "LogiQAv2-plus", each featuring three subsets: the first with
randomly shuffled options, the second with the correct choices replaced by
"none of the other options are correct", and a combination of the previous two
subsets. We carry out experiments on these datasets with both discriminative
and generative LLMs and show that these simple tricks greatly hinder the
performance of the language models. Despite their superior performance on the
original publicly available datasets, we find that all models struggle to
answer our newly constructed datasets. We show that introducing task variations
by perturbing a sizable training set can markedly improve the model's
generalisation and robustness in logical reasoning tasks. Moreover, applying
logic-driven data augmentation for fine-tuning, combined with prompting can
enhance the generalisation performance of both discriminative large language
models and generative large language models. These results offer insights into
assessing and improving the generalisation and robustness of large language
models for logical reasoning tasks. We make our source code and data publicly
available
\url{https://github.com/Strong-AI-Lab/Logical-and-abstract-reasoning}.
- Abstract(参考訳): GPT-3.5やGPT-4のような大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける人工システムの性能を大幅に向上させた。
しかし、論理的な推論を行うための一般化と堅牢性は未評価のままである。
この能力を探索するために,まずランダムにシャッフルされた選択肢の1つ,第2の選択肢が正しい選択肢の1つに置き換わる「ReClor-plus」「LogiQA-plus」「LogiQAv2-plus」という3つの新しい論理的推論データセットと,それ以前の2つのサブセットの組み合わせを提案する。
識別と生成の両方でこれらのデータセットの実験を行い、これらの単純なトリックが言語モデルの性能を著しく損なうことを示す。
オリジナルの公開データセットでのパフォーマンスは優れていますが、私たちはすべてのモデルが新しく構築されたデータセットに答えるのに苦労しています。
本研究では,相当量のトレーニング集合を摂動させることで,論理推論タスクにおけるモデルの一般化とロバスト性が著しく向上することを示す。
さらに、微調整に論理駆動データ拡張を適用すると、プロンプトと組み合わせることで、判別型大言語モデルと生成型大言語モデルの双方の一般化性能が向上する。
これらの結果は、論理推論タスクのための大規模言語モデルの一般化と堅牢性の評価と改善に関する洞察を提供する。
ソースコードとデータは \url{https://github.com/strong-ai-lab/logical-and-abstract-reasoning} で公開しています。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Reranking for Natural Language Generation from Logical Forms: A Study
based on Large Language Models [47.08364281023261]
大規模言語モデル(LLM)は、自然言語生成において印象的な能力を示している。
しかし、それらの出力品質は矛盾する可能性があり、論理形式(LF)から自然言語を生成する上での課題を提起する。
論文 参考訳(メタデータ) (2023-09-21T17:54:58Z) - Scallop: A Language for Neurosymbolic Programming [14.148819428748597]
Scallopは、ディープラーニングと論理的推論の利点を組み合わせた言語である。
アルゴリズム推論を多様で困難なAIタスクで表現することができる。
機械学習プログラマが論理的なドメイン知識を統合するための簡潔なインターフェースを提供する。
論文 参考訳(メタデータ) (2023-04-10T18:46:53Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - A Comparative Study of Transformer-Based Language Models on Extractive
Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。
F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-10-07T02:23:19Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。