論文の概要: Beyond Experience Retrieval: Learning to Generate Utility-Optimized Structured Experience for Frozen LLMs
- arxiv url: http://arxiv.org/abs/2602.02556v1
- Date: Fri, 30 Jan 2026 13:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.929721
- Title: Beyond Experience Retrieval: Learning to Generate Utility-Optimized Structured Experience for Frozen LLMs
- Title(参考訳): ユーザエクスペリエンスの検索を超えて: 凍結LDMのためのユーティリティ最適化された構造化エクスペリエンスを生成するための学習
- Authors: Xuancheng Li, Haitao Li, Yujia Zhou, Yiqun Liu, Qingyao Ai,
- Abstract要約: 大規模言語モデル(LLM)は大部分が静的であり、しばしば推論や繰り返しの誤りを繰り返す。
SEAMは軽量なエグゼクタ固有のプラグインで、そのパラメータでエクスペリエンスを格納し、構造化されたインスタンスに適したエクスペリエンスエントリを生成する。
- 参考スコア(独自算出の注目度): 28.558050861419957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are largely static and often redo reasoning or repeat mistakes. Prior experience reuse typically relies on external retrieval, which is similarity-based, can introduce noise, and adds latency. We introduce SEAM (Structured Experience Adapter Module), a lightweight, executor-specific plug-in that stores experience in its parameters and generates a structured, instance-tailored experience entry in a single forward pass to guide a frozen LLM executor. SEAM is trained for utility via executor rollouts and GRPO while keeping the executor frozen, and it can be further improved after deployment with supervised fine-tuning on logged successful trajectories. Experiments on mathematical reasoning benchmarks show consistent accuracy gains across executors with low overhead. Extensive ablations and analyses further elucidate the mechanisms underlying SEAM's effectiveness and robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は大部分が静的であり、しばしば推論や繰り返しの誤りを繰り返す。
以前の経験の再利用は通常、類似性に基づく外部検索に依存しており、ノイズを導入し、遅延を追加することができる。
SEAM(Structured Experience Adapter Module)は軽量なエグゼキュータ固有のプラグインで,そのパラメータにエクスペリエンスを格納し,単一のフォワードパスに構造化されたインスタンスに適したエクスペリエンスエントリを生成し,凍結したLCMエグゼキュータをガイドする。
SEAMはエグゼキュータのロールアウトとGRPOを通じてユーティリティのためにトレーニングされており、ログ化された成功軌道の教師付き微調整でデプロイ後にさらに改善することができる。
数学的推論ベンチマークの実験では、オーバーヘッドの少ない実行者間で一貫した精度の向上が示されている。
広範囲にわたる改善と分析により、SEAMの有効性と堅牢性の基礎となるメカニズムが解明される。
関連論文リスト
- Training-Free Group Relative Policy Optimization [34.73950078782136]
我々は,Large Language Model (LLM) エージェントが,経験的知識を先行するトークンとして学習することで,出力分布に類似した効果を得られることを論じる。
我々は,LLMエージェントの性能をパラメータ更新なしで向上する,費用対効果の高いソリューションであるTraining-Free Group Relative Policy Optimization (Training-Free GRPO)を提案する。
数学的推論とWeb検索タスクの実験により、DeepSeek-V3.1-Terminusに適用されたトレーニングフリーGRPOは、ドメイン外のパフォーマンスを大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-10-09T13:18:17Z) - FLAIRR-TS -- Forecasting LLM-Agents with Iterative Refinement and Retrieval for Time Series [1.1360832156847103]
本稿では,エージェントシステムを利用したテスト時間プロンプト最適化フレームワークFLAIRR-TSを紹介する。
Forecaster-Adntgenerates forecasts using a initial prompt, which is refineed by a refiner agent, in-formed by past outputs and retrieved analogs。
ベンチマークデータセットの実験では、静的プロンプトと検索拡張ベースラインよりも精度が向上した。
論文 参考訳(メタデータ) (2025-08-24T00:57:22Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Unleashing the Power of Large Language Models in Zero-shot Relation Extraction via Self-Prompting [21.04933334040135]
本稿では,大規模言語モデルに組み込まれたRE知識を十分に活用する新しい手法であるSelf-Promptingフレームワークを紹介する。
我々のフレームワークは3段階の多様性アプローチを用いてLSMを誘導し、スクラッチから特定の関係をカプセル化する複数の合成サンプルを生成する。
ベンチマークデータセットを用いた実験により,既存のLCMベースのゼロショットRE法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-02T01:12:54Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。