論文の概要: Learning To Teach Large Language Models Logical Reasoning
- arxiv url: http://arxiv.org/abs/2310.09158v1
- Date: Fri, 13 Oct 2023 14:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 12:28:41.958791
- Title: Learning To Teach Large Language Models Logical Reasoning
- Title(参考訳): 大規模言語モデルの論理推論を学習する
- Authors: Meiqi Chen, Yubo Ma, Kaitao Song, Yixin Cao, Yan Zhang, and Dongsheng
Li
- Abstract要約: 大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
- 参考スコア(独自算出の注目度): 33.88499005859982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have gained enormous attention from both
academia and industry, due to their exceptional ability in language generation
and extremely powerful generalization. However, current LLMs still output
unreliable content in practical reasoning tasks due to their inherent issues
(e.g., hallucination). To better disentangle this problem, in this paper, we
conduct an in-depth investigation to systematically explore the capability of
LLMs in logical reasoning. More in detail, we first investigate the deficiency
of LLMs in logical reasoning on different tasks, including event relation
extraction and deductive reasoning. Our study demonstrates that LLMs are not
good reasoners in solving tasks with rigorous reasoning and will produce
counterfactual answers, which require us to iteratively refine. Therefore, we
comprehensively explore different strategies to endow LLMs with logical
reasoning ability, and thus enable them to generate more logically consistent
answers across different scenarios. Based on our approach, we also contribute a
synthesized dataset (LLM-LR) involving multi-hop reasoning for evaluation and
pre-training. Extensive quantitative and qualitative analyses on different
tasks also validate the effectiveness and necessity of teaching LLMs with logic
and provide insights for solving practical tasks with LLMs in future work.
- Abstract(参考訳): 大規模言語モデル(llm)は、その言語生成能力と非常に強力な一般化により、学界と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題(幻覚など)のために、実用的な推論タスクにおいて信頼できないコンテンツを出力している。
本稿では,論理推論におけるllmの能力を体系的に探究するために,詳細な調査を行う。
より詳しくは、イベント関係抽出や帰納的推論を含む様々なタスクにおける論理的推論におけるLLMの欠如について検討する。
我々の研究は、llmが厳密な推論でタスクを解決するのに適していないことを示し、反事実的回答を生み出し、反復的に洗練する必要がある。
そこで我々は,LLMを論理的推論能力で支援する戦略を包括的に検討し,複数のシナリオにまたがってより論理的に一貫した回答を得られるようにした。
提案手法では,評価と事前学習のためのマルチホップ推論を含む合成データセット(LLM-LR)も提案する。
様々なタスクに関する大規模で質的な分析は、LLMを論理で教えることの有効性と必要性を検証し、将来の作業でLLMで実用的なタスクを解くための洞察を提供する。
関連論文リスト
- Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。
我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。
我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:49:35Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Meaningful Learning: Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
それにもかかわらず、一般的な事実に支えられた単純な質問をタスクすると、LCMは一貫性のある正確な答えを提供しないことが多い。
このことは、LSMが真に推論しているのか、単に記憶しているだけなのか、という活発な議論を引き起こしている。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。