論文の概要: ProRAC: A Neuro-symbolic Method for Reasoning about Actions with LLM-based Progression
- arxiv url: http://arxiv.org/abs/2511.15069v1
- Date: Wed, 19 Nov 2025 03:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.613566
- Title: ProRAC: A Neuro-symbolic Method for Reasoning about Actions with LLM-based Progression
- Title(参考訳): ProRAC: LLMをベースとした行動の推論のためのニューロシンボリックな方法
- Authors: Haoyong Wu, Yongmei Liu,
- Abstract要約: 本稿では,RAC問題に対処するためのニューロシンボリック・フレームワークであるProRACを提案する。
ProRACは問題からアクションや質問を含むRAC要素を抽出する。
いくつかのRACベンチマークでProRACを評価し,本手法が高い性能を実現することを示す。
- 参考スコア(独自算出の注目度): 3.7838089347652244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose ProRAC (Progression-based Reasoning about Actions and Change), a neuro-symbolic framework that leverages LLMs to tackle RAC problems. ProRAC extracts fundamental RAC elements including actions and questions from the problem, progressively executes each action to derive the final state, and then evaluates the query against the progressed state to arrive at an answer. We evaluate ProRAC on several RAC benchmarks, and the results demonstrate that our approach achieves strong performance across different benchmarks, domains, LLM backbones, and types of RAC tasks.
- Abstract(参考訳): 本稿では,LPMを用いてRAC問題に対処する神経シンボリックフレームワークであるProRAC(Progression-based Reasoning about Actions and Change)を提案する。
ProRACは、問題からアクションや質問を含む基本的なRAC要素を抽出し、各アクションを段階的に実行して最終状態を引き出す。
我々は,複数のRACベンチマーク上でProRACを評価し,提案手法が異なるベンチマーク,ドメイン,LLMバックボーン,RACタスクの種類にまたがって高い性能を実現することを示す。
関連論文リスト
- Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。
我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。
6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-31T15:48:43Z) - Large Language Models for Spreadsheets: Benchmarking Progress and Evaluating Performance with FLARE [0.0]
大規模言語モデル(LLM)は、様々な領域にまたがるいくつかの重要な機能を示している。
本研究では,スプレッドシート機能の実行において,LLMをリードする性能を評価するためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-19T03:47:38Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning [52.29223403698673]
本稿では, Answer Set Programming (ASP) とともに, Conformal Language Modelling (CLM) の使用について検討する。
LLM から ASP プログラムの集合を生成するために CLM を適用し,出力の正確性に関する統計的保証を提供する。
実験の結果,標準サンプリング手法を用いたベースラインモデルではCLMが有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T14:10:10Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints [31.90180597239974]
アクション・アンド・チェンジ(RAC)に関する推論(Reasoning about Actions and Change)は、AIの基本的な問題を解決する上で、歴史的に重要な役割を担ってきた。
我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを紹介し、19のアクションシーケンスに対する質問を含む。
このベンチマークは、6つの主要なRAC次元にわたるLLM(Large Language Models)を厳格に評価する。
論文 参考訳(メタデータ) (2024-06-06T13:15:37Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。