論文の概要: Benchmarking Defeasible Reasoning with Large Language Models -- Initial Experiments and Future Directions
- arxiv url: http://arxiv.org/abs/2410.12509v1
- Date: Wed, 16 Oct 2024 12:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:27.027989
- Title: Benchmarking Defeasible Reasoning with Large Language Models -- Initial Experiments and Future Directions
- Title(参考訳): 大規模言語モデルによるベンチマーク定義可能な推論 -- 最初の実験と今後の方向性
- Authors: Ilias Tachmazidis, Sotiris Batsakis, Grigoris Antoniou,
- Abstract要約: 本稿では,様々なデファシブルなルールベースの推論パターンに対応するベンチマークを提案する。
我々は、デファシブルなルールを大規模言語モデルに適したテキストに変換することで、デファシブルな論理推論のための既存のベンチマークを修正した。
そこで我々は,ChatGPTを用いた非単調な規則に基づく推論の予備実験を行い,デファジブル論理で定義された推論パターンと比較した。
- 参考スコア(独自算出の注目度): 0.36868085124383626
- License:
- Abstract: Large Language Models (LLMs) have gained prominence in the AI landscape due to their exceptional performance. Thus, it is essential to gain a better understanding of their capabilities and limitations, among others in terms of nonmonotonic reasoning. This paper proposes a benchmark that corresponds to various defeasible rule-based reasoning patterns. We modified an existing benchmark for defeasible logic reasoners by translating defeasible rules into text suitable for LLMs. We conducted preliminary experiments on nonmonotonic rule-based reasoning using ChatGPT and compared it with reasoning patterns defined by defeasible logic.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その例外的なパフォーマンスのために、AIの世界で注目されている。
したがって、非単調な推論においては、それらの能力や限界をよりよく理解することが不可欠である。
本稿では,様々なデファシブルなルールベースの推論パターンに対応するベンチマークを提案する。
LLMに適したテキストにデフェイザブルなルールを翻訳することで、デフェイザブルな論理推論器のための既存のベンチマークを修正した。
そこで我々は,ChatGPTを用いた非単調な規則に基づく推論の予備実験を行い,デファジブル論理で定義された推論パターンと比較した。
関連論文リスト
- Rulebreakers Challenge: Revealing a Blind Spot in Large Language Models' Reasoning with Formal Logic [3.0648414540406703]
本研究では,論理的含意が現実的に許容できる推論から分岐する事例を指す「ルールブレーカー(rulebreaker)」の概念を紹介する。
RULEBREAKERSは,ルールブレーカーと非ルールブレーカーを区別する大規模言語モデルの能力を評価するための新しいデータセットである。
論文 参考訳(メタデータ) (2024-10-21T20:48:16Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - RobustLR: Evaluating Robustness to Logical Perturbation in Deductive
Reasoning [25.319674132967553]
トランスフォーマーは、英語の自然言語で書かれた規則や文を含む論理ルールベースで演能的推論を実行できることが示されている。
本稿では,ルールベースにおける最小論理編集に対して,これらのモデルのロバスト性を評価するためにロバストLRを提案する。
先行研究で訓練されたモデルは、ロバストLRの異なる摂動に対して一貫して動作しないことがわかった。
論文 参考訳(メタデータ) (2022-05-25T09:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。