論文の概要: ProRAC: A Neuro-symbolic Method for Reasoning about Actions with LLM-based Progression
- arxiv url: http://arxiv.org/abs/2511.15069v1
- Date: Wed, 19 Nov 2025 03:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.613566
- Title: ProRAC: A Neuro-symbolic Method for Reasoning about Actions with LLM-based Progression
- Title(参考訳): ProRAC: LLMをベースとした行動の推論のためのニューロシンボリックな方法
- Authors: Haoyong Wu, Yongmei Liu,
- Abstract要約: 本稿では,RAC問題に対処するためのニューロシンボリック・フレームワークであるProRACを提案する。
ProRACは問題からアクションや質問を含むRAC要素を抽出する。
いくつかのRACベンチマークでProRACを評価し,本手法が高い性能を実現することを示す。
- 参考スコア(独自算出の注目度): 3.7838089347652244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose ProRAC (Progression-based Reasoning about Actions and Change), a neuro-symbolic framework that leverages LLMs to tackle RAC problems. ProRAC extracts fundamental RAC elements including actions and questions from the problem, progressively executes each action to derive the final state, and then evaluates the query against the progressed state to arrive at an answer. We evaluate ProRAC on several RAC benchmarks, and the results demonstrate that our approach achieves strong performance across different benchmarks, domains, LLM backbones, and types of RAC tasks.
- Abstract(参考訳): 本稿では,LPMを用いてRAC問題に対処する神経シンボリックフレームワークであるProRAC(Progression-based Reasoning about Actions and Change)を提案する。
ProRACは、問題からアクションや質問を含む基本的なRAC要素を抽出し、各アクションを段階的に実行して最終状態を引き出す。
我々は,複数のRACベンチマーク上でProRACを評価し,提案手法が異なるベンチマーク,ドメイン,LLMバックボーン,RACタスクの種類にまたがって高い性能を実現することを示す。
関連論文リスト
- Exploring LLM Features in Predictive Process Monitoring for Small-Scale Event-Logs [43.010073925519244]
当初、プロンプトを通じて全時間予測に重点を置いていた予測プロセス監視フレームワークを拡張しました。
この拡張は、その一般化、セマンティックレバレッジ、推論メカニズムを包括的に評価する。
実験により、LLMは事前知識の具体化とトレーニングトレースの内的相関の両方を利用することが示された。
論文 参考訳(メタデータ) (2026-01-16T17:54:55Z) - Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。
我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。
6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-31T15:48:43Z) - Large Language Models for Spreadsheets: Benchmarking Progress and Evaluating Performance with FLARE [0.0]
大規模言語モデル(LLM)は、様々な領域にまたがるいくつかの重要な機能を示している。
本研究では,スプレッドシート機能の実行において,LLMをリードする性能を評価するためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-19T03:47:38Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Single LLM, Multiple Roles: A Unified Retrieval-Augmented Generation Framework Using Role-Specific Token Optimization [64.33914369424494]
RoleRAGは、ロール固有のトークン最適化を通じて効率的なマルチタスク処理を実現する統一的なRAGフレームワークである。
RoleRAGは6つのモジュールから構成され、それぞれがRAGプロセス内で特定のサブタスクを処理する。
クエリの分解を表すクエリグラフを導入し、分解状態に応じて動的に解決する。
論文 参考訳(メタデータ) (2025-05-21T12:25:12Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning [52.29223403698673]
本稿では, Answer Set Programming (ASP) とともに, Conformal Language Modelling (CLM) の使用について検討する。
LLM から ASP プログラムの集合を生成するために CLM を適用し,出力の正確性に関する統計的保証を提供する。
実験の結果,標準サンプリング手法を用いたベースラインモデルではCLMが有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T14:10:10Z) - RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。
本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文 参考訳(メタデータ) (2024-10-21T06:11:38Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints [31.90180597239974]
アクション・アンド・チェンジ(RAC)に関する推論(Reasoning about Actions and Change)は、AIの基本的な問題を解決する上で、歴史的に重要な役割を担ってきた。
我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを紹介し、19のアクションシーケンスに対する質問を含む。
このベンチマークは、6つの主要なRAC次元にわたるLLM(Large Language Models)を厳格に評価する。
論文 参考訳(メタデータ) (2024-06-06T13:15:37Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。