論文の概要: Towards Continuous Intelligence Growth: Self-Training, Continual Learning, and Dual-Scale Memory in SuperIntelliAgent
- arxiv url: http://arxiv.org/abs/2511.23436v1
- Date: Fri, 28 Nov 2025 18:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.02193
- Title: Towards Continuous Intelligence Growth: Self-Training, Continual Learning, and Dual-Scale Memory in SuperIntelliAgent
- Title(参考訳): 継続的インテリジェンスの成長に向けて - SuperIntelliAgentにおける自己学習、継続的な学習、デュアルスケールメモリ
- Authors: Jianzhe Lin, Zeyu Pan, Yun Zhu, Ruiqi Song, Jining Yang,
- Abstract要約: SuperIntelliAgentは、学習可能な小さな拡散モデル(学習者)と凍結した大言語モデル(検証者)を結合するエージェント学習フレームワークである。
従来の教師付き微調整とは異なり、SuperIntelliAgentはアノテーションなしで自律的に学習する。
トレーニング可能な学習者と推論可能な検証器をペアリングすることは、知性を成長させる最小限の信頼性単位となると仮定する。
- 参考スコア(独自算出の注目度): 10.571643330948858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SuperIntelliAgent, an agentic learning framework that couples a trainable small diffusion model (the learner) with a frozen large language model (the verifier) to enable continual intelligence growth through self-supervised interaction. Unlike conventional supervised fine-tuning, SuperIntelliAgent learns autonomously without annotation: the learner generates candidate outputs, the verifier evaluates them through step-by-step reasoning, and their interaction produces chosen/rejected pairs for Direct Preference Optimization (DPO). This converts each input into a pseudo-training signal for continual improvement. The framework integrates dual-scale memory: short-term in-context memory that preserves reasoning traces across refinement cycles, and long-term memory that consolidates acquired knowledge through lightweight on-the-fly fine-tuning. A replay buffer retains samples that show verifiable progress and replays them as auxiliary supervision, reinforcing recent learning while forming adaptive curricula. SuperIntelliAgent is infrastructure-agnostic and can be plugged into existing agentic frameworks while turning ordinary inference loops into a lifelong optimization process. We posit that pairing a trainable learner with a reasoning-capable verifier forms a minimal reliable unit of growing intelligence, as paired feedback and partial-history replay yield richer learning curricula and stronger preference alignment. With a small number of automatically generated DPO pairs, the learner improves across all benchmarks, indicating that this mechanism provides a promising direction for continual intelligence accumulation and real-world deployment.
- Abstract(参考訳): エージェント学習フレームワークであるSuperIntelliAgentを導入し、学習者(学習者)と凍結した大言語モデル(検証者)を結合して、自己教師型インタラクションによる継続的なインテリジェンス成長を可能にする。
従来の教師付き微調整とは異なり、SuperIntelliAgentはアノテーションなしで自律的に学習する:学習者は候補出力を生成し、検証者はステップバイステップの推論によってそれらを評価し、それらの相互作用は直接選好最適化(DPO)のために選択/拒絶されたペアを生成する。
これにより、各入力を擬似学習信号に変換して継続的な改善を行う。
このフレームワークは、リファインメントサイクルにまたがる推論トレースを保存する短期インコンテキストメモリと、軽量なオンザフライ微調整によって獲得した知識を集約する長期メモリという、デュアルスケールメモリを統合している。
リプレイバッファは、検証可能な進捗を示すサンプルを保持し、それらを補助的な監視として再生し、適応的なカリキュラムを形成しながら最近の学習を補強する。
SuperIntelliAgentはインフラストラクチャに依存しないため、通常の推論ループを生涯の最適化プロセスに変換しながら、既存のエージェントフレームワークにプラグインすることができる。
学習者と推論能力のある検証器をペアリングすることで、より豊かな学習カリキュラムとより強い選好アライメントを得られる、ペア化されたフィードバックと部分的歴史再生という、成長するインテリジェンスの最小限の信頼性単位が形成されると仮定する。
少数の自動生成されたDPOペアによって、学習者はすべてのベンチマークを改善し、このメカニズムが継続的なインテリジェンス蓄積と実世界のデプロイに有望な方向を提供することを示す。
関連論文リスト
- WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection [51.10348385624784]
本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
論文 参考訳(メタデータ) (2025-10-21T16:52:00Z) - ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory [57.517214479414726]
ReasoningBankは、エージェントの自己判断の成功と失敗の経験から一般化可能な推論戦略を抽出するメモリフレームワークである。
テスト時には、エージェントがReasoningBankから関連する記憶を取得してそのインタラクションを知らせ、新しい学習を統合することで、時間が経つにつれてより有能になる。
本稿では,エージェントのインタラクションエクスペリエンスをスケールアップすることにより,学習プロセスの高速化と多様化を図るメモリ対応テストタイムスケーリング(MaTTS)を提案する。
論文 参考訳(メタデータ) (2025-09-29T17:51:03Z) - Memory Management and Contextual Consistency for Long-Running Low-Code Agents [0.0]
本稿ではLCNCエージェントに特化して設計された新しいハイブリッドメモリシステムを提案する。
認知科学にインスパイアされた私たちのアーキテクチャは、エピソードとセマンティックメモリコンポーネントと、積極的な「インテリジェント・デカイ」メカニズムを組み合わせています。
鍵となるイノベーションは、LCNCパラダイムに沿ったユーザ中心の可視化インターフェースであり、非技術者のユーザがエージェントのメモリを直接管理できるようにする。
論文 参考訳(メタデータ) (2025-09-27T08:01:26Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - SWE-Bench-CL: Continual Learning for Coding Agents [0.0]
SWE-Bench-CLは、人間検証されたSWE-Bench検証データセット上に構築された、新しい連続学習ベンチマークである。
GitHubのイシューを、自然リポジトリの進化を反映した時系列順序に整理することで、SWE-Bench-CLは、エージェントのエクスペリエンスを蓄積する能力を直接評価できる。
論文 参考訳(メタデータ) (2025-06-13T07:11:14Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems [27.161576657380646]
Agent4Eduは、大規模言語モデル(LLM)による人間知能の最近の進歩を活用した、パーソナライズされた学習シミュレータである。
学習者のプロファイルは現実世界の反応データを使用し、実践スタイルと認知要因をキャプチャする。
各エージェントは、コンピュータ適応テストのようなパーソナライズされた学習アルゴリズムと対話することができる。
論文 参考訳(メタデータ) (2025-01-17T18:05:04Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。