論文の概要: Can LLMs Solve ASP Problems? Insights from a Benchmarking Study (Extended Version)
- arxiv url: http://arxiv.org/abs/2507.19749v1
- Date: Sat, 26 Jul 2025 02:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.156016
- Title: Can LLMs Solve ASP Problems? Insights from a Benchmarking Study (Extended Version)
- Title(参考訳): LLMはASPの問題を解決することができるか?ベンチマーク研究からの洞察(拡張版)
- Authors: Lin Ren, Guohui Xiao, Guilin Qi, Yishuai Geng, Haohan Xue,
- Abstract要約: 大規模言語モデル(LLM)は論理的推論において有望な能力を示している。
LLMは、ASP.NETソリューションのコアである、回答セットの計算に苦労しています。
これは、シンボリック推論機能をより効率的に統合する新しいアプローチの必要性を強調している。
- 参考スコア(独自算出の注目度): 8.29485811981654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answer Set Programming (ASP) is a powerful paradigm for non-monotonic reasoning. Recently, large language models (LLMs) have demonstrated promising capabilities in logical reasoning. Despite this potential, current evaluations of LLM capabilities in ASP are often limited. Existing works normally employ overly simplified ASP programs, do not support negation, disjunction, or multiple answer sets. Furthermore, there is a lack of benchmarks that introduce tasks specifically designed for ASP solving. To bridge this gap, we introduce ASPBench, a comprehensive ASP benchmark, including three ASP specific tasks: ASP entailment, answer set verification, and answer set computation. Our extensive evaluations on ASPBench reveal that while 14 state-of-the-art LLMs, including \emph{deepseek-r1}, \emph{o4-mini}, and \emph{gemini-2.5-flash-thinking}, perform relatively well on the first two simpler tasks, they struggle with answer set computation, which is the core of ASP solving. These findings offer insights into the current limitations of LLMs in ASP solving. This highlights the need for new approaches that integrate symbolic reasoning capabilities more effectively. The code and dataset are available at https://github.com/HomuraT/ASPBench.
- Abstract(参考訳): Answer Set Programming (ASP)は、非単調推論のための強力なパラダイムである。
近年,大規模言語モデル (LLM) は論理的推論において有望な能力を示した。
このような可能性にもかかわらず、ASP.NETでのLLM機能の現在の評価は制限されることが多い。
既存の作業は通常、過度に単純化されたASPプログラムを使用し、否定、解答、あるいは複数の回答セットをサポートしない。
さらに、ASP.NETの問題を解決するために特別に設計されたタスクを導入するベンチマークが欠如している。
このギャップを埋めるために、ASPBenchという包括的なASPベンチマークを紹介します。
ASPBenchに関する広範囲な評価では、最初の2つの単純なタスクにおいて、例えば \emph{deepseek-r1}、 \emph{o4-mini}、 \emph{gemini-2.5-flash-thinking} を含む14の最先端のLCMが比較的よく機能するのに対して、彼らはASP解決のコアである解集合計算に苦労している。
これらの発見は、ASP.NET ソリューションにおける LLM の現在の制限に関する洞察を提供する。
これは、シンボリック推論機能をより効率的に統合する新しいアプローチの必要性を強調している。
コードとデータセットはhttps://github.com/HomuraT/ASPBench.comで公開されている。
関連論文リスト
- ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Hybrid Answer Set Programming: Foundations and Applications [0.0]
制約付きHere-and-There論理(HT_c)と非モノトン拡張Equilibrium論理(HT)の拡張として、制約付きHere-and-There論理(HT_c)を導入する。
このアイデアは、HTC(および他の拡張)がハイブリッドASP.NETアプリケーションに類似した役割を担っているというものです。
これらのハイブリッドロジックを形式的に理解することは、適用される(実世界の)問題の本質的な構造をよりよく理解し、ASP.NETでの表現を改善するためにも必要です。
論文 参考訳(メタデータ) (2025-02-13T11:53:57Z) - PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL [54.304872649870575]
大規模言語モデル(LLM)は、テキスト・トゥ・センス・タスクの強力なツールとして登場した。
本研究では,クエリグループパーティショニングを用いることで,単一問題に特有の思考プロセスの学習に集中できることを示す。
論文 参考訳(メタデータ) (2024-09-21T09:33:14Z) - LLASP: Fine-tuning Large Language Models for Answer Set Programming [6.261151680007598]
大規模言語モデル(LLM)は、コード生成を含む様々な自然言語処理タスクにおいて、その可能性を示した。
基本的なASPプログラムパターンをエンコードするように特別に訓練された、微調整された軽量モデルであるLLASPを提案する。
LLASP が生成する ASP プログラムの品質が顕著であることを示す実験を行った。
論文 参考訳(メタデータ) (2024-07-26T13:18:42Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Finite Groundings for ASP with Functions: A Journey through Consistency [21.53198582611571]
関数シンボルによるASPの強化は、基本的な推論問題を極めて決定不能にすることが知られている。
高レベルの不決定性に対する直感を与える縮小を示す。
これらの洞察は、ASP プログラムを "frugal" と "non-proliferous" と特徴づける、よりきめ細かい分析を可能にする。
論文 参考訳(メタデータ) (2024-05-08T11:50:08Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - A Preliminary Data-driven Analysis of Common Errors Encountered by
Novice SPARC Programmers [0.0]
本研究は, ASP.NET を用いた K-12 学生のプログラミングエラーのタイプと難易度に着目した。
このデータセットのエラーメッセージから、エラークラスの集合を特定し、各クラスの発生頻度と解決の難しさを測定します。
論文 参考訳(メタデータ) (2022-08-05T10:48:25Z) - LP2PB: Translating Answer Set Programs into Pseudo-Boolean Theories [0.0]
本稿では、ASPプログラムを擬似ブール理論に変換する新しいツールLP2PBを提案する。
従来のASPベンチマークで、当社のツールと、ASPに対するカットプレーンベースの問題解決の可能性を評価します。
論文 参考訳(メタデータ) (2020-09-22T00:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。