論文の概要: Nested Learning: The Illusion of Deep Learning Architectures
- arxiv url: http://arxiv.org/abs/2512.24695v1
- Date: Wed, 31 Dec 2025 07:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.600929
- Title: Nested Learning: The Illusion of Deep Learning Architectures
- Title(参考訳): Nested Learning: ディープラーニングアーキテクチャのイリュージョン
- Authors: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni,
- Abstract要約: 我々はNested Learning(NL)と呼ばれる新しい学習パラダイムを提案する。
表現的一般化は、実際には、深い記憶と/またはより強力な学習規則を持つ一般化である。
本稿では、長期記憶の伝統的な視点を一般化するメモリシステムのための新しい連続体を提案する。
- 参考スコア(独自算出の注目度): 57.41377373511876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent progresses, particularly in developing Language Models, there are fundamental challenges and unanswered questions about how such models can continually learn/memorize, self-improve, and find effective solutions. In this paper, we present a new learning paradigm, called Nested Learning (NL), that coherently represents a machine learning model with a set of nested, multi-level, and/or parallel optimization problems, each of which with its own context flow. Through the lenses of NL, existing deep learning methods learns from data through compressing their own context flow, and in-context learning naturally emerges in large models. NL suggests a philosophy to design more expressive learning algorithms with more levels, resulting in higher-order in-context learning and potentially unlocking effective continual learning capabilities. We advocate for NL by presenting three core contributions: (1) Expressive Optimizers: We show that known gradient-based optimizers, such as Adam, SGD with Momentum, etc., are in fact associative memory modules that aim to compress the gradients' information (by gradient descent). Building on this insight, we present other more expressive optimizers with deep memory and/or more powerful learning rules; (2) Self-Modifying Learning Module: Taking advantage of NL's insights on learning algorithms, we present a sequence model that learns how to modify itself by learning its own update algorithm; and (3) Continuum Memory System: We present a new formulation for memory system that generalizes the traditional viewpoint of long/short-term memory. Combining our self-modifying sequence model with the continuum memory system, we present a continual learning module, called Hope, showing promising results in language modeling, knowledge incorporation, and few-shot generalization tasks, continual learning, and long-context reasoning tasks.
- Abstract(参考訳): 最近の進歩、特に言語モデルの開発にもかかわらず、そのようなモデルがどのように継続的に学び、記憶し、自己改善し、効果的な解決策を見つけるかについて、根本的な課題や未解決の疑問がある。
本稿では,Nested Learning(NL)と呼ばれる新しい学習パラダイムを提案する。このパラダイムは,ネスト,マルチレベル,および/または並列最適化の一連の問題を一貫した機械学習モデルを表現するもので,それぞれ独自のコンテキストフローを持つ。
NLのレンズを通して、既存のディープラーニング手法は、自身のコンテキストフローを圧縮することでデータから学習し、コンテキスト内学習は大きなモデルで自然に現れる。
NLは、より表現力のある学習アルゴリズムをより多くのレベルで設計する哲学を提案する。
1)表現的最適化(Expressive Optimizers):Adam,SGD with Momentumなどの既知の勾配に基づくオプティマイザは、実際には勾配の情報(勾配降下による)を圧縮するための連想メモリモジュールであることを示す。
この知見に基づいて、我々は、より表現力のある、深層記憶および/またはより強力な学習ルールを備えた、他の表現力のあるオプティマイザを提示する。(2)自己修正学習モジュール:学習アルゴリズムに対するNLの洞察を生かして、自身の更新アルゴリズムを学習することで、自身の修正方法を学ぶシーケンスモデルを示す。(3)連続記憶システム:長期記憶の伝統的な視点を一般化するメモリシステムのための新しい定式化を提案する。
自己修正シーケンスモデルと連続記憶システムを組み合わせることで、言語モデリング、知識の取り込み、数ショットの一般化タスク、連続学習、長文推論タスクにおける有望な結果を示す連続学習モジュール「ホープ」を提示する。
関連論文リスト
- A Neural Network Model of Complementary Learning Systems: Pattern Separation and Completion for Continual Learning [2.9123921488295768]
事前知識を忘れずに新しい情報を学ぶことは、人間の知性の中心である。
対照的に、ニューラルネットワークモデルは、新しい情報を取得する際に破滅的な忘れに苦しむ。
我々は、最先端の精度(90%)に近づいた、神経学的にもっともらしい連続学習モデルを開発する。
本研究は, 生体および人工システムにおいて, メモリ統合, 一般化, 継続学習をモデル化するための機能テンプレートを提供する。
論文 参考訳(メタデータ) (2025-07-15T15:05:26Z) - Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。
これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。
我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文 参考訳(メタデータ) (2025-06-16T02:27:25Z) - BLUR: A Bi-Level Optimization Approach for LLM Unlearning [100.90394814817965]
未学習問題の階層構造をモデル化することが重要であると論じる。
本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文 参考訳(メタデータ) (2025-06-09T19:23:05Z) - Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Neural Routing in Meta Learning [9.070747377130472]
入力タスクに条件付けされたモデルの部分のみを選択的に使用することにより,現在のメタ学習アルゴリズムのモデル性能を向上させることを目指している。
本稿では、バッチ正規化層におけるスケーリング係数を活用することにより、深層畳み込みニューラルネットワーク(CNN)におけるタスク依存の動的ニューロン選択を研究するアプローチについて述べる。
提案手法であるニューラルルーティング・イン・メタラーニング(NRML)は,数ショットの分類タスクにおいて,既知のメタラーニングベースラインの1つである。
論文 参考訳(メタデータ) (2022-10-14T16:31:24Z) - Memory Bounds for Continual Learning [13.734474418577188]
継続的学習(Continuous learning)、すなわち生涯学習(Lifelong learning)は、機械学習にとって、現在非常に困難な課題である。
我々は,不適切な学習者であっても,$k$で線形に成長するメモリを必要とすることを示すために,コミュニケーションの複雑さを新たに活用する。
論文 参考訳(メタデータ) (2022-04-22T17:19:50Z) - Interleaving Learning, with Application to Neural Architecture Search [12.317568257671427]
インターリーブ学習(IL)と呼ばれる新しい機械学習フレームワークを提案する。
私たちのフレームワークでは、一連のモデルが相互に連携してデータエンコーダを学習します。
CIFAR-10, CIFAR-100, ImageNetの画像分類にインターリービング学習を適用した。
論文 参考訳(メタデータ) (2021-03-12T00:54:22Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。