論文の概要: PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution
- arxiv url: http://arxiv.org/abs/2603.09641v1
- Date: Tue, 10 Mar 2026 13:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.328408
- Title: PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution
- Title(参考訳): PreCEPT: 経験・文脈工学・探索軌道によるレジリエンスの計画 - 構成規則学習とPareto-Guided Prompt進化によるテスト時間適応のための統一フレームワーク
- Authors: Arash Shahmansoori,
- Abstract要約: 自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents that store knowledge as natural language suffer steep retrieval degradation as condition count grows, often struggle to compose learned rules reliably, and typically lack explicit mechanisms to detect stale or adversarial knowledge. We introduce PRECEPT, a unified framework for test-time adaptation with three tightly coupled components: (1) deterministic exact-match rule retrieval over structured condition keys, (2) conflict-aware memory with Bayesian source reliability and threshold-based rule invalidation, and (3) COMPASS, a Pareto-guided prompt-evolution outer loop. Exact retrieval eliminates partial-match interpretation errors on the deterministic path (0% by construction, vs 94.4% under Theorem~B.6's independence model at N=10) and supports compositional stacking through a semantic tier hierarchy; conflict-aware memory resolves static--dynamic disagreements and supports drift adaptation; COMPASS evaluates prompts through the same end-to-end execution pipeline. Results (9--10 seeds): PRECEPT achieves a +41.1pp first-try advantage over Full Reflexion (d>1.9), +33.3pp compositional generalization (d=1.55), 100% $P_1$ on 2-way logistics compositions (d=2.64), +40--55pp continuous learning gains, strong eventual robustness under adversarial static knowledge (100% logistics with adversarial SK active; partial recovery on integration), +55.0pp drift recovery (d=0.95, p=0.031), and 61% fewer steps. Core comparisons are statistically significant, often at p<0.001.
- Abstract(参考訳): 自然言語として知識を格納するLLMエージェントは、条件数が増えるにつれて急激な検索劣化に悩まされ、しばしば学習規則を確実に作成するのに苦労し、典型的には古い知識や敵対的な知識を検出するための明確なメカニズムが欠如している。
我々は,(1)構造化条件キー上の決定論的完全整合則検索,(2)ベイズ音源の信頼性としきい値に基づく規則無効化を伴うコンフリクト認識メモリ,(3)パレート誘導の即時進化外ループであるCompASSという,3つの密結合されたコンポーネントを用いたテスト時適応のための統合フレームワークであるPreCEPTを紹介する。
Exact Searchは、決定論的パス上の部分マッチ解釈エラーを排除し(建設で0%、理論で94.4%、N=10でB.6の独立モデルで94.4%)、セマンティック層階層による合成積み重ねをサポートし、競合認識メモリは静的-動的不一致を解消し、ドリフト適応をサポートする。
結果 (9~10種) PreCEPT はフルリフレクション (d>1.9), +33.3pp 合成一般化 (d=1.55), 100%$P_1$ の2方向ロジスティクス合成 (d=2.64), +40-55pp 連続学習ゲイン (d=2.64), +40-55pp 対向静的知識下での強い結果ロジスティクス (100% 対向的SK活性, 部分回復) +55.0pp ドリフト回復 (d=0.95, p=0.031), 61% のステップを達成した。
コア比較は統計的に有意であり、しばしばp<0.001である。
関連論文リスト
- Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem [0.0]
本研究では,生産システムのアーキテクチャ層が正しい推論を可能にする方法を検討する。
STAR(Situation-Task-Action-Result)推論フレームワークだけでは精度が0%から85%に向上することがわかった。
論文 参考訳(メタデータ) (2026-02-25T11:40:15Z) - From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs [5.838119242443381]
本稿では,3段階にまたがる構造的,解釈可能な推論を付加する推論トレース拡張RAGフレームワークを提案する。
矛盾認識信頼スコア(CATS)パイプラインを導入し、基礎性、事実的正確性、拒絶精度、紛争行動アライメントを評価する。
論文 参考訳(メタデータ) (2025-12-18T17:27:51Z) - Recursive Knowledge Synthesis for Multi-LLM Systems: Stability Analysis and Tri-Agent Audit Framework [0.0]
本稿では,大規模言語システムにおける安定性と説明可能性を分析するための三段階クロスバリデーションフレームワークを提案する。
このアーキテクチャは、セマンティックジェネレーション、分析整合性チェック、透明性監査に使用される3つの異種LCMを統合している。
論文 参考訳(メタデータ) (2025-12-17T16:42:45Z) - Complexity Agnostic Recursive Decomposition of Thoughts [3.3864434164156934]
CARD(Complexity Agnostic Recursive Decomposition)は、生成前の問題を予測し、それに応じて分解を適応するフレームワークである。
CARDはGSM8Kで81.4%から89.2%の精度を実現し、トークンコストは固定された分解ベースラインに比べて1.88倍から2.40倍に削減された。
論文 参考訳(メタデータ) (2025-12-10T06:03:42Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。