論文の概要: Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models
- arxiv url: http://arxiv.org/abs/2310.00836v2
- Date: Fri, 3 Nov 2023 23:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:36:23.670797
- Title: Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models
- Title(参考訳): LogiGLUE: 言語モデルの論理推論能力分析のための簡単な調査とベンチマーク
- Authors: Man Luo, Shrinidhi Kumbhar, Ming shen, Mihir Parmar, Neeraj Varshney,
Pratyay Banerjee, Somak Aditya, Chitta Baral
- Abstract要約: 大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 58.76688462256284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logical reasoning is fundamental for humans yet presents a substantial
challenge in the domain of Artificial Intelligence. Initially, researchers used
Knowledge Representation and Reasoning (KR) systems that did not scale and
required non trivial manual effort. Recently, the emergence of large language
models (LLMs) has demonstrated the ability to overcome various limitations of
formal Knowledge Representation (KR) systems. Consequently, there is a growing
interest in using LLMs for logical reasoning via natural language. This work
strives to understand the proficiency of LLMs in logical reasoning by offering
a brief review of the latest progress in this area; with a focus on the logical
reasoning datasets, tasks, and the methods adopted to utilize LLMs for
reasoning. To offer a thorough analysis, we have compiled a benchmark titled
LogiGLUE. This includes 24 varied datasets encompassing deductive, abductive,
and inductive reasoning. We have standardized these datasets into Seq2Seq tasks
to facilitate straightforward training and evaluation for future research.
Utilizing LogiGLUE as a foundation, we have trained an instruction fine tuned
language model, resulting in LogiT5. We study single task training, multi task
training, and a chain of thought knowledge distillation fine tuning technique
to assess the performance of model across the different logical reasoning
categories. By this comprehensive process, we aim to shed light on the
capabilities and potential pathways for enhancing logical reasoning proficiency
in LLMs, paving the way for more advanced and nuanced developments in this
critical field.
- Abstract(参考訳): 論理的推論は人間にとって基本だが、人工知能の領域では大きな課題がある。
当初、研究者はKR(Knowledge Representation and Reasoning)システムを使用していた。
近年,大規模言語モデル (LLM) の出現は,形式的知識表現 (KR) システムの様々な限界を克服する能力を示している。
その結果、自然言語による論理推論にllmを使うことへの関心が高まっている。
本研究は,LLMを論理的推論に活用するための論理的推論データセット,タスク,手法を中心に,この領域における最新の進歩の簡単なレビューを提供することで,論理的推論におけるLLMの習熟度を理解することを目的とする。
詳細な分析を行うため、LogiGLUEというベンチマークをコンパイルしました。
これには、帰納的、帰納的、帰納的推論を含む24種類のデータセットが含まれる。
我々はこれらのデータセットをSeq2Seqタスクに標準化し、将来の研究のための簡単なトレーニングと評価を容易にする。
LogiGLUEを基礎として、我々は命令微調整言語モデルを訓練し、結果としてLogiT5となった。
一つのタスクトレーニング,複数タスクトレーニング,思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
この包括的プロセスにより、我々はLLMの論理的推論能力を高める能力と潜在的な経路に光を当てることを目指しており、この重要な分野におけるより先進的で曖昧な発展への道を開いた。
関連論文リスト
- LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。