論文の概要: Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust?
- arxiv url: http://arxiv.org/abs/2309.10149v1
- Date: Mon, 18 Sep 2023 21:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-20 17:26:03.528568
- Title: Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust?
- Title(参考訳): AIエージェントの記憶と一般化能力の分析:継続的な学習者はロバストか?
- Authors: Minsu Kim and Walid Saad
- Abstract要約: 連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
- 参考スコア(独自算出の注目度): 91.682459306359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In continual learning (CL), an AI agent (e.g., autonomous vehicles or
robotics) learns from non-stationary data streams under dynamic environments.
For the practical deployment of such applications, it is important to guarantee
robustness to unseen environments while maintaining past experiences. In this
paper, a novel CL framework is proposed to achieve robust generalization to
dynamic environments while retaining past knowledge. The considered CL agent
uses a capacity-limited memory to save previously observed environmental
information to mitigate forgetting issues. Then, data points are sampled from
the memory to estimate the distribution of risks over environmental change so
as to obtain predictors that are robust with unseen changes. The generalization
and memorization performance of the proposed framework are theoretically
analyzed. This analysis showcases the tradeoff between memorization and
generalization with the memory size. Experiments show that the proposed
algorithm outperforms memory-based CL baselines across all environments while
significantly improving the generalization performance on unseen target
environments.
- Abstract(参考訳): 連続学習(CL)では、AIエージェント(例えば、自動運転車やロボット)が動的環境下での非定常データストリームから学習する。
このようなアプリケーションの実用的なデプロイには、過去の経験を維持しながら、見えない環境への堅牢性を保証することが重要である。
本稿では,過去の知識を保ちながら動的環境への堅牢な一般化を実現するための新しいclフレームワークを提案する。
検討されたCLエージェントは、容量制限メモリを使用して、以前に観測された環境情報を保存し、忘れる問題を緩和する。
そして、メモリからデータポイントをサンプリングし、環境変化に対するリスクの分布を推定し、目に見えない変化で堅牢な予測器を得る。
提案フレームワークの一般化と記憶性能を理論的に解析した。
この分析ではメモリサイズの記憶と一般化のトレードオフを示す。
実験により,提案アルゴリズムが全環境のメモリベースラインを上回り,対象環境の一般化性能が大幅に向上することを示した。
関連論文リスト
- AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。
我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文 参考訳(メタデータ) (2026-03-02T15:15:11Z) - GLOVE: Global Verifier for LLM Memory-Environment Realignment [15.456830820378656]
本稿では,相対的な真理の概念を確立することにより,大規模言語モデルメモリシステムの設計次元を新たに導入するフレームワークを提案する。
GLOVEは、地味な監督やモデルのイントロスペクションに強く依存することなく、メモリの検証と更新を行うことで、メモリ環境の調整を可能にする。
以上の結果から,GLOVEはエージェントの成功率を大幅に改善し,自己進化可能な認知エージェントへの堅牢な経路が示唆された。
論文 参考訳(メタデータ) (2026-01-27T06:32:05Z) - Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey [211.01908189012184]
今年、何百もの論文が公開されたメモリは、ユーティリティギャップを埋めるための重要なソリューションとして現れます。
ファンデーションエージェントのメモリを3次元に統一したビューを提供する。
次に、異なるエージェントトポロジの下でメモリがどのようにインスタンス化され、操作されるかを分析する。
論文 参考訳(メタデータ) (2026-01-14T07:38:38Z) - CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory [19.64051996386645]
CREAMは、メモリベースの連続検索のための自己教師型フレームワークである。
教師なしの環境では、目に見えないトピックと見えないトピックの両方に適応します。
2つのベンチマークデータセットの実験は、CREAMが優れた適応性と精度を示すことを示した。
論文 参考訳(メタデータ) (2026-01-06T04:47:49Z) - Interpretable Hybrid Deep Q-Learning Framework for IoT-Based Food Spoilage Prediction with Synthetic Data Generation and Hardware Validation [0.5417521241272645]
インテリジェントでリアルタイムな腐敗予測システムの必要性は、現代のIoT駆動食品サプライチェーンにおいて重要になっている。
本稿では,Long Short-Term Memory(LSTM)とRecurrent Neural Networks(RNN)を統合したハイブリッド強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T12:59:48Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - Learning from Supervision with Semantic and Episodic Memory: A Reflective Approach to Agent Adaptation [11.819481846962447]
本研究では,事前訓練された大規模言語モデル上に構築されたエージェントが,パラメータ更新なしでラベル付き例からターゲット分類関数を学習する方法について検討する。
我々のフレームワークは、エピソードメモリを使用して、インスタンスレベルの批判を保存し、それらを再利用可能なタスクレベルのガイダンスに蒸留する。
我々の研究は、より適応的で解釈可能なLLMエージェントを構築するためのメモリ駆動型反射学習の可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-22T17:58:03Z) - EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer [5.855255212938064]
空間的理解と適応計画におけるモデルの能力を評価する2つの動的空間的ベンチマークを導入する。
実験の結果、我々のベンチマークは、動的空間推論と長期記憶における主流モデルの鍵となる限界を明らかにしている。
論文 参考訳(メタデータ) (2025-09-16T06:21:38Z) - Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - Counterfactual experience augmented off-policy reinforcement learning [9.77739016575541]
CEAは効率的な推論モデルを構築し、学習データの表現性を向上する。
変分オートエンコーダを使用して状態遷移の動的パターンをモデル化する。
学習データのアウト・オブ・ディストリビューション問題を緩和するために、完全な反ファクト体験を構築する。
論文 参考訳(メタデータ) (2025-03-18T02:32:50Z) - A General Close-loop Predictive Coding Framework for Auditory Working Memory [4.7368661961661775]
本稿では,短い聴覚信号メモリタスクを実行するために,クローズループ予測符号化パラダイムに基づく汎用フレームワークを提案する。
このフレームワークは、環境音と音声のための2つの広く使われているベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2025-03-16T13:57:37Z) - C$^{2}$INet: Realizing Incremental Trajectory Prediction with Prior-Aware Continual Causal Intervention [10.189508227447401]
複雑なシナリオにおけるマルチエージェントの軌道予測は、自律運転のようなアプリケーションには不可欠である。
既存の手法は、しばしば環境バイアスを見落とし、一般化の低さにつながる。
一般化可能なマルチエージェント軌道予測のための連続因果干渉法(C$2$INet)を提案する。
論文 参考訳(メタデータ) (2024-11-19T08:01:20Z) - DUEL: Duplicate Elimination on Active Memory for Self-Supervised
Class-Imbalanced Learning [19.717868805172323]
新たなフレームワークであるDuplicate Elimination(DUEL)の自己教師付き事前学習におけるアクティブなデータフィルタリングプロセスを提案する。
このフレームワークは、人間のワーキングメモリにインスパイアされたアクティブメモリを統合し、メモリ内のデータの多様性を測定する特異性情報を導入する。
最も重複したデータを新しいサンプルに置き換えるDUELポリシは、メモリ内の特異性情報を強化し、クラス不均衡を軽減することを目的としている。
論文 参考訳(メタデータ) (2024-02-14T06:09:36Z) - Discovering and Reasoning of Causality in the Hidden World with Large Language Models [109.62442253177376]
我々はCausal representatiOn AssistanT(COAT)と呼ばれる新しいフレームワークを開発し、因果発見に有用な測定変数を提案する。
大規模言語モデル (LLM) と因果関係を直接推論する代わりに、COAT は中間因果発見結果から LLM へのフィードバックを構築し、提案した変数を洗練させる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - An Adaptive Framework for Generalizing Network Traffic Prediction
towards Uncertain Environments [51.99765487172328]
我々は,モバイルネットワークトラフィック予測モデルを動的に割り当てるための時系列解析を用いた新しいフレームワークを開発した。
我々のフレームワークは学習した振る舞いを採用しており、現在の研究と比較して50%以上の改善が得られ、どのモデルよりも優れています。
論文 参考訳(メタデータ) (2023-11-30T18:58:38Z) - Generalization Across Observation Shifts in Reinforcement Learning [13.136140831757189]
バイシミュレーションフレームワークを拡張して、コンテキスト依存の観察シフトを考慮します。
具体的には,シミュレータに基づく学習設定に焦点をあて,代替観測を用いて表現空間を学習する。
これにより、テスト期間中にエージェントをさまざまな監視設定にデプロイし、目に見えないシナリオに一般化することができます。
論文 参考訳(メタデータ) (2023-06-07T16:49:03Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Stronger Generalization Guarantees for Robot Learning by Combining
Generative Models and Real-World Data [5.935761705025763]
実世界の環境の有限データセットを活用することで、一般化保証を提供するためのフレームワークを提供する。
非線形・ハイブリッド力学とリッチ・センシング・モダリティを持つ2つのシミュレーションシステムに対するアプローチを実証する。
論文 参考訳(メタデータ) (2021-11-16T20:13:10Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Towards Lifelong Learning of End-to-end ASR [81.15661413476221]
lifelong learningは、マシンが新しいデータセットから新しいタスクをシーケンシャルに学習できるようにすることを目的としている。
WERの28.7%の相対的な減少は、3つの非常に異なるベンチマークコーポラを順次学習する場合の微調整ベースラインと比較して達成された。
論文 参考訳(メタデータ) (2021-04-04T13:48:53Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。