Fugu-MT 論文翻訳(概要): Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs

論文の概要: Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs

arxiv url: http://arxiv.org/abs/2402.11442v1
Date: Sun, 18 Feb 2024 03:38:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 21:09:34.912475
Title: Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs
Title（参考訳）: LLMはルールで理にかなっているか? ストレス試験とLLM改善のための論理スカッホールディング
Authors: Siyuan Wang, Zhongyu Wei, Yejin Choi, Xiang Ren
Abstract要約: 大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
参考スコア（独自算出の注目度）: 95.41575344721691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved impressive human-like performance across various reasoning tasks. However, their mastery of underlying inferential rules still falls short of human capabilities. To investigate this, we propose a logic scaffolding inferential rule generation framework, to construct an inferential rule base, ULogic, comprising both primitive and compositional rules across five domains. Our analysis of GPT-series models over a rule subset reveals significant gaps in LLMs' logic understanding compared to human performance, especially in compositional and structural complex rules with certain bias patterns. We further distill these rules into a smaller-scale inference engine for flexible rule generation and enhancing downstream reasoning. Through a multi-judger evaluation, our inference engine proves effective in generating accurate, complex and abstract conclusions and premises, and improve various commonsense reasoning tasks. Overall, our work sheds light on LLMs' limitations in grasping inferential rule and suggests ways to enhance their logical reasoning abilities~\footnote{Code and data are available at \url{https://github.com/SiyuanWangw/ULogic}.}.
Abstract（参考訳）: 大規模言語モデル(llm)は様々な推論タスクで印象的な人間的なパフォーマンスを達成している。しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。そこで本研究では,5つの領域にまたがるプリミティブルールとコンポジションルールを組み合わせた推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。ルールサブセット上でのGPT系列モデルの解析は,LLMの論理的理解において,特に特定のバイアスパターンを持つ構成的・構造的複雑な規則において,人的性能と比較して大きなギャップを生じさせる。さらにこれらのルールを,よりフレキシブルなルール生成と下流推論の強化のために,より小型な推論エンジンに蒸留する。提案する推論エンジンは, 精度, 複雑, 抽象的な結論と前提を生成するのに有効であることを証明し, 各種常識推論タスクを改良する。全体として、我々の研究は、推論ルールの把握における LLM の限界に光を当て、論理的推論能力~\footnote{Code を向上する方法を、 \url{https://github.com/SiyuanWangw/ULogic} で示しています。 }.

関連論文リスト

An Explicit Syllogistic Legal Reasoning Framework for Large Language Models [5.501226256903341]
大規模言語モデル(LLM)は法的問題に答えることができるが、しばしば明示的なシロジック推論に苦慮する。我々は,LLMが明示的なシロジックな法的推論を行えるように設計された新しいフレームワークであるSyLeRを紹介した。 SyLeRは、関係する法規や前例を合成するために、木構造的階層的検索機構を使用している。
論文参考訳（メタデータ） (2025-04-05T03:34:51Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning [3.0648414540406703]
RULEBREAKERSは、大規模な言語モデルによるルールブレーカーの認識と応答を人間的な方法で厳格に評価するための最初のデータセットです。 GPT-4oを含むほとんどのモデルでは、RULEBREAKERSの中間精度が得られ、典型的な人間の推論と異なり、論理規則を過度に適用する傾向が見られた。
論文参考訳（メタデータ） (2024-10-21T20:48:16Z)
Benchmarking Defeasible Reasoning with Large Language Models -- Initial Experiments and Future Directions [0.36868085124383626]
本稿では,様々なデファシブルなルールベースの推論パターンに対応するベンチマークを提案する。我々は、デファシブルなルールを大規模言語モデルに適したテキストに変換することで、デファシブルな論理推論のための既存のベンチマークを修正した。そこで我々は,ChatGPTを用いた非単調な規則に基づく推論の予備実験を行い,デファジブル論理で定義された推論パターンと比較した。
論文参考訳（メタデータ） (2024-10-16T12:36:23Z)
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳（メタデータ） (2024-08-28T13:16:41Z)
Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference [20.057611113206324]
本研究では,大規模言語モデル (LLM) を早急に規定された規則に従う方法について検討する。 LLMはそのような規則を忠実に従えるが、悪意のあるプロンプトは理想化された理論的なモデルさえも誤解させる可能性があることを証明している。
論文参考訳（メタデータ） (2024-06-21T19:18:16Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文参考訳（メタデータ） (2023-09-04T11:38:02Z)
Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic [14.503982715625902]
本研究では,言語モデル(LM)に対する合成コーパスに基づくアプローチについて検討し,論理的帰納的推論能力を得る。形式論理理論に基づく推論規則は,多段階的に組み合わせることで,他の推論規則を導出することができる。我々は、FLDコーパスで訓練されたLMがより一般化可能な推論能力を取得することを実証的に検証した。
論文参考訳（メタデータ） (2023-08-11T13:15:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。