論文の概要: RPMS: Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy
- arxiv url: http://arxiv.org/abs/2603.17831v1
- Date: Wed, 18 Mar 2026 15:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.789126
- Title: RPMS: Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy
- Title(参考訳): RPMS:ルール強化メモリシナジーによるLCMに基づく身体的計画の強化
- Authors: Zhenhang Yuan, Shenghai Yuan, Lihua Xie,
- Abstract要約: LLMエージェントは、厳密な前提条件を満たす必要があるため、クローズドワールドの実施環境で失敗することが多い。
P1) 無効な動作生成と(P2) 状態ドリフトの2つの構造的結合型障害モードを同定する。
本稿では、構造化ルール検索によるアクション実現性を強制する、コンフリクト管理アーキテクチャRPMSを提案する。
- 参考スコア(独自算出の注目度): 34.723296971298424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents often fail in closed-world embodied environments because actions must satisfy strict preconditions -- such as location, inventory, and container states -- and failure feedback is sparse. We identify two structurally coupled failure modes: (P1) invalid action generation and (P2) state drift, each amplifying the other in a degenerative cycle. We present RPMS, a conflict-managed architecture that enforces action feasibility via structured rule retrieval, gates memory applicability via a lightweight belief state, and resolves conflicts between the two sources via rules-first arbitration. On ALFWorld (134 unseen tasks), RPMS achieves 59.7% single-trial success with Llama 3.1 8B (+23.9 pp over baseline) and 98.5% with Claude Sonnet 4.5 (+11.9 pp); of the 8B gain, rule retrieval alone contributes +14.9 pp (statistically significant), making it the dominant factor. A key finding is that episodic memory is conditionally useful: it harms performance on some task types when used without grounding, but becomes a stable net positive once filtered by current state and constrained by explicit action rules. Adapting RPMS to ScienceWorld with GPT-4 yields consistent gains across all ablation conditions (avg. score 54.0 vs. 44.9 for the ReAct baseline), providing transfer evidence that the core mechanisms hold across structurally distinct environments.
- Abstract(参考訳): LLMエージェントは、場所、在庫、コンテナ状態といった厳格な前提条件を満たさなければならないため、クローズドワールドの実施環境では失敗することが多い。
P1) 無効な動作生成と(P2) 状態ドリフトの2つの構造的に結合した障害モードを特定し、それぞれが縮退サイクルで他方を増幅する。
本稿では,構造化ルール検索による動作実現性を強制するコンフリクト管理アーキテクチャであるRPMSについて,ライトウェイトな信念状態によるメモリ適用性をゲートし,ルールファーストの仲裁によるコンフリクトを解決する。
ALFWorld (134の未確認タスク)では、RPMSはLlama 3.1 8B (+23.9 pp over baseline) で59.7%、Claude Sonnet 4.5 (+11.9 pp) で98.5%を達成し、ルール検索だけで+14.9 pp (統計的に重要な) を寄与している。
重要な発見は、エピソードメモリは条件付きで有用である、すなわち、グラウンドを使わずに使用する場合、いくつかのタスクタイプのパフォーマンスを損なうが、現在の状態によってフィルタされ、明示的なアクションルールによって制約された、安定した純正となる。
GPT-4でRPMSをScienceWorldに適応すると、全てのアブレーション条件(ReActベースラインでは54.0対44.9)で一貫した利得が得られる。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution [2.28438857884398]
自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
論文 参考訳(メタデータ) (2026-03-10T13:16:45Z) - OpenSanctions Pairs: Large-Scale Entity Matching with LLMs [0.9131359219276399]
我々は,実世界の国際制裁アグリゲーションとアナリストの重複から派生した,大規模エンティティマッチングベンチマークOpenSanctions Pairsをリリースした。
データセットには、31か国で293の異種源にまたがる755,540のラベル付きペアが含まれている。
オフザシェルフ LLM は生産ルールベースのベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-24T06:25:49Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - SEER: Spectral Entropy Encoding of Roles for Context-Aware Attention-Based Design Pattern Detection [0.0]
本稿では,ソースコードからGang of Four(GoF)デザインパターンを検出するために,従来のContext Is All You Needのアップグレード版を提案する。
SEERはこれらの制限に、(i)各クラスの相互作用グラフのラプラシアンスペクトルからメンバーごとのロール埋め込みを導出するスペクトルエントロピーロールエンコーダ、(ii)メソッドカテゴリに経験的校正期間を割り当てる時間重呼出コンテキストの2つの原則で対処する。
PyDesignNet上のSEER(1,832ファイル、35,000のシーケンス、23のGoFパターン)を評価し、以前のシステムよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2026-01-19T19:13:40Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。