論文の概要: Continual Learning Bench: Evaluating Frontier AI Systems in Real-World Stateful Environments
- arxiv url: http://arxiv.org/abs/2606.05661v1
- Date: Thu, 04 Jun 2026 03:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.530761
- Title: Continual Learning Bench: Evaluating Frontier AI Systems in Real-World Stateful Environments
- Title(参考訳): 継続的学習ベンチ: 現実のステートフル環境におけるフロンティアAIシステムの評価
- Authors: Parth Asawa, Christopher M. Glaze, Gabriel Orlanski, Ramya Ramakrishnan, Benji Xu, Asim Biswal, Vincent Sunn Chen, Frederic Sala, Matei Zaharia, Joseph E. Gonzalez,
- Abstract要約: 我々は,AIシステムが実体験で真に改善するかどうかを測定する最初のベンチマークであるContinuous Learning Bench(CL-Bench)を紹介する。
CL-Benchは6つの異なるドメイン(ソフトウェアエンジニアリング、信号処理、病気発生予測、データベースクエリ、戦略的ゲームプレイ、需要予測)にまたがる。
そこで本研究では,テキスト内学習(ICL)から専用メモリシステムまで,複数のエージェントアーキテクチャを対象としたフロンティアモデルの評価を行った。
- 参考スコア(独自算出の注目度): 44.90458129179607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning, the ability of AI systems to improve through sequential experience, has attracted substantial interest, but no high-quality benchmark exists to evaluate it. We introduce Continual Learning Bench (CL-Bench), the first difficult, expert-validated benchmark designed to measure whether LLM-based systems genuinely improve with experience. CL-Bench spans six diverse domains (software engineering, signal processing, disease outbreak forecasting, database querying, strategic game-playing, and demand forecasting), each validated by domain experts and designed so that tasks share a learnable latent structure (codebase layout, disease outbreak dynamics, opponent strategies) that a stateful system can discover online but a stateless one cannot. We evaluate frontier models across several agent architectures, from naive in-context learning (ICL) to dedicated memory systems, introducing a gain metric to isolate learning from prior capabilities. We find that these systems leave headroom for improved continual learning: agents frequently overfit to immediate observations or fail to reuse knowledge across instances, and dedicated memory systems do not fix this -- in fact, naive ICL outperforms systems dedicated to memory management. CL-Bench is the first benchmark to evaluate continual learning across diverse real-world domains with expert-validated tasks and isolate online learning from underlying model capability, showing a need for better continual learning systems.
- Abstract(参考訳): 逐次的な経験を通じて改善するAIシステムの能力である継続的学習は、かなりの関心を集めているが、それを評価するための高品質なベンチマークは存在しない。
CL-Bench(Continuous Learning Bench)は,LSMベースのシステムが実体験で真に改善するかどうかを測定するために設計された,最初の難易度の高いベンチマークである。
CL-Benchは6つの多様なドメイン(ソフトウェアエンジニアリング、信号処理、病気発生予測、データベースクエリ、戦略的ゲームプレイング、需要予測)にまたがっており、それぞれドメインの専門家によって検証され、タスクが学習可能な潜在構造(コードベースのレイアウト、疾患発生のダイナミクス、反対戦略)を共有するように設計されている。
そこで本研究では,テキスト内学習(ICL)から専用メモリシステムまで,複数のエージェントアーキテクチャを対象としたフロンティアモデルの評価を行った。
エージェントは即時観察に過度に適したり、インスタンス間での知識の再利用に失敗することが多く、専用のメモリシステムはこれを修正しない -- 実際、ICLはメモリ管理専用のシステムよりも優れています。
CL-Benchは、エキスパート検証されたタスクを持つさまざまな現実世界のドメインにわたる継続的学習を評価し、基礎となるモデル能力からオンライン学習を分離する最初のベンチマークであり、継続的な学習システムの改善の必要性を示している。
関連論文リスト
- MemoryBench: A Benchmark for Memory and Continual Learning in LLM Systems [29.473672174276743]
LLMsysの継続的な学習能力を評価するために,ユーザフィードバックシミュレーションフレームワークとベンチマークを提案する。
実験により、最先端のベースラインの有効性と効率は、満足には程遠いことが示された。
論文 参考訳(メタデータ) (2025-10-20T08:16:12Z) - ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning [73.35191368656224]
先行知識学習とオンライン強化学習を統合したフレームワークである TextitEmbodied Reasoning Agent (ERA) を提案する。
ERAはスケーラブルなエンボディドインテリジェンスへの実践的なパスを提供し、将来のエンボディドAIシステムに対する方法論的な洞察を提供する。
論文 参考訳(メタデータ) (2025-10-14T16:25:46Z) - Neuro-mimetic Task-free Unsupervised Online Learning with Continual
Self-Organizing Maps [56.827895559823126]
自己組織化マップ(英: Self-organizing map、SOM)は、クラスタリングや次元減少によく用いられるニューラルネットワークモデルである。
低メモリ予算下でのオンライン教師なし学習が可能なSOM(連続SOM)の一般化を提案する。
MNIST, Kuzushiji-MNIST, Fashion-MNISTなどのベンチマークでは, ほぼ2倍の精度が得られた。
論文 参考訳(メタデータ) (2024-02-19T19:11:22Z) - Improving Performance in Continual Learning Tasks using Bio-Inspired
Architectures [4.2903672492917755]
我々は,シナプスの可塑性機構とニューロ変調を組み込んだ,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。
提案手法により,Split-MNIST,Split-CIFAR-10,Split-CIFAR-100データセット上でのオンライン連続学習性能が向上する。
さらに,鍵設計概念を他のバックプロパゲーションに基づく連続学習アルゴリズムに統合することにより,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-08T19:12:52Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z) - Neuromodulated Neural Architectures with Local Error Signals for
Memory-Constrained Online Continual Learning [4.2903672492917755]
我々は,局所学習とニューロ変調を取り入れた,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。
一つの課題と連続的な学習環境の両方にアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-16T07:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。