論文の概要: RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2412.08972v1
- Date: Thu, 12 Dec 2024 06:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:21.809347
- Title: RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
- Title(参考訳): RuleArena: 実世界のシナリオにおけるルールガイドによるLLM推論のベンチマーク
- Authors: Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang,
- Abstract要約: RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
- 参考スコア(独自算出の注目度): 58.90106984375913
- License:
- Abstract: This paper introduces RuleArena, a novel and challenging benchmark designed to evaluate the ability of large language models (LLMs) to follow complex, real-world rules in reasoning. Covering three practical domains -- airline baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs' proficiency in handling intricate natural language instructions that demand long-context understanding, logical reasoning, and accurate mathematical computation. Two key attributes distinguish RuleArena from traditional rule-based reasoning benchmarks: (1) it extends beyond standard first-order logic representations, and (2) it is grounded in authentic, practical scenarios, providing insights into the suitability and reliability of LLMs for real-world applications. Our findings reveal several notable limitations in LLMs: (1) they struggle to identify and apply the appropriate rules, frequently becoming confused by similar but distinct regulations, (2) they cannot consistently perform accurate mathematical computations, even when they correctly identify the relevant rules, and (3) in general, they perform poorly in the benchmark. These results highlight significant challenges in advancing LLMs' rule-guided reasoning capabilities in real-life applications.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の推論における複雑な実世界のルールに従う能力を評価するために設計された,新規で挑戦的なベンチマークである RuleArena を紹介する。
航空会社の荷物手数料、NBA取引、税制規制の3つの実践領域をカバーするルールアリーナは、LLMが長いコンテキスト理解、論理的推論、正確な数学的計算を必要とする複雑な自然言語命令を扱う能力を評価する。
1)標準的な一階述語論理表現を超えて拡張し、(2)現実のアプリケーションにおけるLLMの適合性と信頼性に関する洞察を提供する、真正かつ実践的なシナリオに基礎を置いている。
その結果,(1) 適切な規則の特定と適用に苦慮し,しばしば類似の規則と混同される,(2) 関連する規則を正しく識別しても連続的に正確な数学的計算を行えない,(3) 一般にはベンチマークでは不十分である,といった顕著な制限が明らかになった。
これらの結果は, LLMのルール誘導推論能力を現実のアプリケーションで向上させる上で, 重要な課題を浮き彫りにしている。
関連論文リスト
- Training Large Language Models to be Better Rule Followers [23.958458849973248]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
現在の訓練方法はこれらのルールを効果的に活用できない。
本稿ではメタルール追従ファインチューニング(Meta-RFFT)を提案する。
論文 参考訳(メタデータ) (2025-02-17T07:54:50Z) - RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models [25.337295202341608]
大規模言語モデル(LLM)は、安全で正確でインテリジェントな実世界のシナリオによって制御され、ガイドされるはずである。
LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。
本稿では、まず、推論規則追従の概念を明らかにし、推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。
論文 参考訳(メタデータ) (2024-07-11T12:26:55Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。