論文の概要: Continual Learning, Not Training: Online Adaptation For Agents
- arxiv url: http://arxiv.org/abs/2511.01093v1
- Date: Sun, 02 Nov 2025 21:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.062114
- Title: Continual Learning, Not Training: Online Adaptation For Agents
- Title(参考訳): トレーニングではなく継続的学習 - エージェントのオンライン適応
- Authors: Aman Jaglan, Jarrod Barnes,
- Abstract要約: 私たちは、推論(教師)を実行から切り離すデュアルエージェントアーキテクチャATLAS(Adaptive Teaching and Learning System)を紹介します。
ATLASは勾配のない連続学習を実現し、モデルパラメータからシステムレベルのオーケストレーションへの適応の軌跡をシフトさせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
- Abstract(参考訳): 継続的学習(CL)手法は伝統的に、リアルタイムに適応しなければならないデプロイエージェントに不適のアプローチである勾配ベースのリトレーニングを通じて破滅的な忘れを緩和することに重点を置いてきた。
本稿では,学習者から推論を分離し(学習者)、学習経験から抽出した指導を記憶する永続的な学習記憶を組み込んだ2元エージェントアーキテクチャである適応学習システム(ATLAS)について紹介する。
これはオーケストレーション層に通知し、システムは推論時に監督レベルや初期計画選択などの運用戦略を動的に調整できる。
ATLASは、モデルパラメータからシステムレベルのオーケストレーションへの適応の軌跡をシフトして、勾配のない連続的な学習を実現する。
我々はこれを連続学習のためのシステム中心のパラダイムとして定式化し、目的は適応効率であり、タスク成功の最大化と、パラメータ更新よりも推論時間オーケストレーションによる計算コストの最小化である。
MicrosoftのExCyTIn-Benchで評価された、複雑なサイバー脅威調査をシミュレートするオープンソースのベンチマークで、ATLASはGPT-5-miniを学生として54.1%成功させ、より大きなGPT-5(High)を13%上回り、コストを86%削減した。
インシデント5号からの凍結パンフレットは28%から41%の精度をゼロのトレーニングで改善し、出力組成を冗長探索から構造化推論にシフトする。
これらの知見は、適応的でデプロイ可能なAIシステムへの実行可能なパスとして勾配なし連続学習を確立し、明示的な世界モデルのトレーニングに有用な因果的注釈付きトレースを提供する。
関連論文リスト
- SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:05:40Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Adaptive Retention & Correction: Test-Time Training for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Kaizen: Practical Self-supervised Continual Learning with Continual
Fine-tuning [21.36130180647864]
モデルをスクラッチからトレーニングして、新たに生成されたデータに適応することは、時間がかかり非効率である。
破滅的な忘れを軽減できるトレーニングアーキテクチャを導入します。
Kaizenは、競争力のあるビジョンベンチマークにおいて、以前のSSLモデルを大きく上回っている。
論文 参考訳(メタデータ) (2023-03-30T09:08:57Z) - Semi-supervised ASR by End-to-end Self-training [18.725686837244265]
半教師付きASRのためのエンドツーエンドシステムを用いた自己学習手法を提案する。
我々は、現在モデルと教師なし発話のミニバッチ上に擬似ラベルを反復的に生成し、擬似ラベルを使用して教師付きデータを即時モデル更新する。
提案手法は,データ拡張を伴う慎重に訓練されたベースシステムに対して14.4%の相対的なWER改善を実現し,ベースシステムとオラクルシステム間の性能ギャップを50%削減する。
論文 参考訳(メタデータ) (2020-01-24T18:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。