論文の概要: Learning Hierarchical Procedural Memory for LLM Agents through Bayesian Selection and Contrastive Refinement
- arxiv url: http://arxiv.org/abs/2512.18950v1
- Date: Mon, 22 Dec 2025 01:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.569303
- Title: Learning Hierarchical Procedural Memory for LLM Agents through Bayesian Selection and Contrastive Refinement
- Title(参考訳): ベイズ選抜とコントラスト選抜によるLCMエージェントの階層的手続き記憶学習
- Authors: Saman Forouzandeh, Wei Peng, Parham Moradi, Xinghuo Yu, Mahdi Jalili,
- Abstract要約: 本稿では,外部階層型手続き型メモリにおいて,すべての適応を実行しながら,凍結した大言語モデルを維持することにより,推論を学習から切り離すフレームワークMACLAを提案する。
MACLAは、トラジェクトリーから再利用可能な手順を抽出し、ベイジアン後部を通して信頼性を追跡し、期待される実用性スコアリングを通じてアクションを選択し、成功と失敗を対比して手順を洗練する。
4つのベンチマーク(ALFWorld、WebShop、TravelPlanner、InterCode)でMACLAの平均パフォーマンスは78.1%で、すべてのベースラインを上回っている。
- 参考スコア(独自算出の注目度): 23.31711942240935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MACLA, a framework that decouples reasoning from learning by maintaining a frozen large language model while performing all adaptation in an external hierarchical procedural memory. MACLA extracts reusable procedures from trajectories, tracks reliability via Bayesian posteriors, selects actions through expected-utility scoring, and refines procedures by contrasting successes and failures. Across four benchmarks (ALFWorld, WebShop, TravelPlanner, InterCodeSQL), MACLA achieves 78.1 percent average performance, outperforming all baselines. On ALFWorld unseen tasks, MACLA reaches 90.3 percent with 3.1 percent positive generalization. The system constructs memory in 56 seconds, 2800 times faster than the state-of-the-art LLM parameter-training baseline, compressing 2851 trajectories into 187 procedures. Experimental results demonstrate that structured external memory with Bayesian selection and contrastive refinement enables sample-efficient, interpretable, and continually improving agents without LLM parameter updates.
- Abstract(参考訳): 本稿では,外部階層型手続き型メモリにおいて,すべての適応を実行しながら,凍結した大言語モデルを維持することにより,推論を学習から切り離すフレームワークMACLAを提案する。
MACLAは、トラジェクトリーから再利用可能な手順を抽出し、ベイジアン後部を通して信頼性を追跡し、期待ユーティリティスコアリングを通じてアクションを選択し、成功と失敗を対比することで手順を洗練する。
4つのベンチマーク(ALFWorld、WebShop、TravelPlanner、InterCodeSQL)でMACLAの平均パフォーマンスは78.1%で、すべてのベースラインを上回っている。
ALFWorldでは、MACLAは90.3%、前向きな一般化は3.1%である。
このシステムは56秒でメモリを構築し、187のプロシージャに2851のトラジェクトリを圧縮し、最先端のLDMパラメータトレーニングベースラインより2800倍高速である。
実験結果から, ベイズ選択とコントラスト改善による構造化外部メモリは, LLMパラメータを更新することなく, サンプリング効率, 解釈性, エージェントの継続的な改善を可能にした。
関連論文リスト
- Amortized Bayesian Meta-Learning for Low-Rank Adaptation of Large Language Models [7.075648770762989]
低ランク適応(LoRA)を用いた微調整型大規模言語モデルは、特定のデータセットから情報を組み込むためのコスト効率のよい方法である。
微調整 LLM がいかに一般化するか、すなわち、目に見えないデータセット上でどれだけうまく機能するかは、しばしば不明である。
我々は,大規模モデルへの一般化とスケールを改善するために,LoRA (ABMLL) のためのアモータライズベイズメタラーニングを提案する。
論文 参考訳(メタデータ) (2025-08-19T21:57:59Z) - VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI [15.320553375828045]
VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。
VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-08-01T14:22:54Z) - Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains [2.1797343876622097]
強化学習(RL)の先行する言語モデル(LLM)には大きな利点があるが、かなりの計算コストが伴う。
本稿では,LCMをベースとした後方サンプリングのためのキャッシュ効率向上フレームワークを提案し,性能を向上しつつ,これらのコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-12T06:53:24Z) - Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。
投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。
実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-03-20T04:38:56Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。