論文の概要: CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment
- arxiv url: http://arxiv.org/abs/2605.06702v1
- Date: Tue, 05 May 2026 12:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.472656
- Title: CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment
- Title(参考訳): CASCADE: デプロイメント中の大規模言語モデルのケースベース継続的適応
- Authors: Siyuan Guo, Yali Du, Hechang Chen, Yi Chang, Jun Wang,
- Abstract要約: 大規模言語モデル(LLM)は現代の人工知能の基盤となっている。
本稿では、LCMライフサイクルの第3段階としてデプロイメント時学習(DTL)を定式化する。
本稿では、LCMエージェントに明示的で進化するエピソードメモリを装備するフレームワークであるCASCADEについて述べる。
- 参考スコア(独自算出の注目度): 35.81483031531396
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have become a central foundation of modern artificial intelligence, yet their lifecycle remains constrained by a rigid separation between training and deployment, after which learning effectively ceases. This limitation contrasts with natural intelligence, which continually adapts through interaction with its environment. In this paper, we formalise deployment-time learning (DTL) as the third stage in the LLM lifecycle that enables LLM agents to improve from experience during deployment without modifying model parameters. We present CASCADE (CASe-based Continual Adaptation during DEployment), a general and principled framework that equips LLM agents with an explicit, evolving episodic memory. CASCADE formulates experience reuse as a contextual bandit problem, enabling principled exploration-exploitation trade-offs and establishing no-regret guarantees over long-term interactions. This design allows agents to accumulate, select, and refine task-relevant cases, transforming past experience into actionable knowledge. Across 16 diverse tasks spanning medical diagnosis, legal analysis, code generation, web search, tool use, and embodied interaction, CASCADE improves macro-averaged success rate by 20.9% over zero-shot prompting while consistently outperforming gradient-based and memory-based baselines. By reframing deployment as an adaptive learning process, this work establishes a foundation for continually improving AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は現代の人工知能の基盤となっているが、そのライフサイクルはトレーニングとデプロイメントの厳格な分離によって制約され、学習は事実上停止する。
この制限は自然の知性とは対照的であり、環境との相互作用を通じて継続的に適応する。
本稿では,展開時間学習(DTL)をLCMライフサイクルの第3段階として定式化する。
本稿では、LCMエージェントに明示的で進化するエピソードメモリを装備する汎用的で原則化されたフレームワークであるCASCADE(CASe-based Continual Adaptation during Deployment)を提案する。
CASCADEの定式化は、コンテキスト的バンドイト問題として再利用を経験し、探索・探索のトレードオフを原則として実現し、長期的相互作用に対する非相対的な保証を確立する。
この設計により、エージェントはタスク関連ケースを蓄積し、選択し、洗練し、過去の経験を実行可能な知識に変えることができる。
医学診断、法解析、コード生成、Web検索、ツールの使用、そして具体的相互作用を含む16のタスクにおいて、CASCADEはゼロショットのプロンプトよりもマクロ平均の成功率を20.9%改善し、グラデーションベースのベースラインとメモリベースのベースラインを一貫して上回っている。
この研究は、デプロイメントを適応的な学習プロセスとして再定義することで、AIシステムを継続的に改善するための基盤を確立する。
関連論文リスト
- SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents [35.45207852488779]
本稿では,ツールメモリをベースとした自己進化型エージェントフレームワークSEARLを紹介する。
インタラクションエクスペリエンスを直接利用するアプローチとは異なり,本手法では,計画と実行を統合する構造化されたエクスペリエンスメモリを構築している。
我々は,知識推論と数学タスクの枠組みを評価し,より実践的で効率的な学習を実現する上での有効性を実証した。
論文 参考訳(メタデータ) (2026-04-09T04:38:47Z) - Online Experiential Learning for Language Models [99.90826536842337]
Online Experiential Learning (OEL)は、言語モデルが自身のデプロイメントエクスペリエンスから継続的に改善できるフレームワークである。
OELは、まず、転送可能な経験知識を抽出し、ユーザ側で収集された相互作用軌跡から蓄積する。
テキストベースのゲーム環境において,複数のモデルスケールでOELを評価し,思考と非思考の両バリエーションについて検討した。
論文 参考訳(メタデータ) (2026-03-17T17:57:49Z) - Modular Memory is the Key to Continual Learning Agents [100.09688599754465]
In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。
我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
論文 参考訳(メタデータ) (2026-03-02T11:40:05Z) - Experience Scaling: Post-Deployment Evolution For Large Language Models [44.48142891798125]
大規模言語モデル(LLM)の継続的デプロイ後進化のためのフレームワークであるエクスペリエンススケーリングを提案する。
このフレームワークは,以前には見つからなかったが関連するタスク,繰り返しクエリ,過飽和知識ストアへの一般化を含む実世界のシナリオで検証される。
その結果、構造化されたデプロイ後学習は、静的な人間生成データの限界を超えてLLM能力を拡張できることを示した。
論文 参考訳(メタデータ) (2025-09-23T08:04:58Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。