論文の概要: Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs
- arxiv url: http://arxiv.org/abs/2402.11442v3
- Date: Fri, 21 Jun 2024 02:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:46:30.066382
- Title: Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs
- Title(参考訳): LLMは規則に当てはまるか? LLMのストレステストと改善のための論理スキャフォールディング
- Authors: Siyuan Wang, Zhongyu Wei, Yejin Choi, Xiang Ren,
- Abstract要約: 大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 87.34281749422756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved impressive human-like performance across various reasoning tasks. However, their mastery of underlying inferential rules still falls short of human capabilities. To investigate this, we propose a logic scaffolding inferential rule generation framework, to construct an inferential rule base, ULogic, comprising both primitive and compositional rules across five domains. Our analysis of GPT-series models over a rule subset reveals significant gaps in LLMs' logic understanding compared to human performance, especially in compositional and structural complex rules with certain bias patterns. We further distill these rules into a smaller-scale inference engine for flexible rule generation and enhancing downstream reasoning. Through a multi-judger evaluation, our inference engine proves effective in generating accurate, complex and abstract conclusions and premises, and improve various commonsense reasoning tasks. Overall, our work sheds light on LLMs' limitations in grasping inferential rule and suggests ways to enhance their logical reasoning abilities~\footnote{Code and data are available at \url{https://github.com/SiyuanWangw/ULogic}.}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
そこで本研究では,5つの領域にまたがるプリミティブルールとコンポジションルールを組み合わせた,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
ルールサブセット上でのGPT系列モデルの解析は,LLMの論理的理解において,特に特定のバイアスパターンを持つ構成的・構造的複雑な規則において,人的性能と比較して大きなギャップを生じさせる。
さらにこれらのルールを,よりフレキシブルなルール生成と下流推論の強化のために,より小型な推論エンジンに蒸留する。
提案する推論エンジンは, 精度, 複雑, 抽象的な結論と前提を生成するのに有効であることを証明し, 各種常識推論タスクを改良する。
全体として、我々の研究は、推論ルールの把握における LLM の限界に光を当て、論理的推論能力~\footnote{Code を向上する方法を、 \url{https://github.com/SiyuanWangw/ULogic} で提案しています。
と。
関連論文リスト
- Benchmarking Defeasible Reasoning with Large Language Models -- Initial Experiments and Future Directions [0.36868085124383626]
本稿では,様々なデファシブルなルールベースの推論パターンに対応するベンチマークを提案する。
我々は、デファシブルなルールを大規模言語モデルに適したテキストに変換することで、デファシブルな論理推論のための既存のベンチマークを修正した。
そこで我々は,ChatGPTを用いた非単調な規則に基づく推論の予備実験を行い,デファジブル論理で定義された推論パターンと比較した。
論文 参考訳(メタデータ) (2024-10-16T12:36:23Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference [20.057611113206324]
本研究では,大規模言語モデル (LLM) を早急に規定された規則に従う方法について検討する。
LLMはそのような規則を忠実に従えるが、悪意のあるプロンプトは理想化された理論的なモデルさえも誤解させる可能性があることを証明している。
論文 参考訳(メタデータ) (2024-06-21T19:18:16Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic [14.503982715625902]
本研究では,言語モデル(LM)に対する合成コーパスに基づくアプローチについて検討し,論理的帰納的推論能力を得る。
形式論理理論に基づく推論規則は,多段階的に組み合わせることで,他の推論規則を導出することができる。
我々は、FLDコーパスで訓練されたLMがより一般化可能な推論能力を取得することを実証的に検証した。
論文 参考訳(メタデータ) (2023-08-11T13:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。