論文の概要: On the creation of narrow AI: hierarchy and nonlocality of neural network skills
- arxiv url: http://arxiv.org/abs/2505.15811v1
- Date: Wed, 21 May 2025 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.827663
- Title: On the creation of narrow AI: hierarchy and nonlocality of neural network skills
- Title(参考訳): 狭義AIの作成--ニューラルネットワークスキルの階層構造と非局所性
- Authors: Eric J. Michaud, Asher Parker-Sartori, Max Tegmark,
- Abstract要約: 私たちは、強く、狭く、AIシステムを作るという問題を研究します。
特定の狭義のスキルを学習するためには、幅広いデータ分布上のネットワークをトレーニングする必要がある場合があります。
また, 蒸留法は, 蒸留法よりも高い結果が得られている。
- 参考スコア(独自算出の注目度): 8.96017219406018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of creating strong, yet narrow, AI systems. While recent AI progress has been driven by the training of large general-purpose foundation models, the creation of smaller models specialized for narrow domains could be valuable for both efficiency and safety. In this work, we explore two challenges involved in creating such systems, having to do with basic properties of how neural networks learn and structure their representations. The first challenge regards when it is possible to train narrow models from scratch. Through experiments on a synthetic task, we find that it is sometimes necessary to train networks on a wide distribution of data to learn certain narrow skills within that distribution. This effect arises when skills depend on each other hierarchically, and training on a broad distribution introduces a curriculum which substantially accelerates learning. The second challenge regards how to transfer particular skills from large general models into small specialized models. We find that model skills are often not perfectly localized to a particular set of prunable components. However, we find that methods based on pruning can still outperform distillation. We investigate the use of a regularization objective to align desired skills with prunable components while unlearning unnecessary skills.
- Abstract(参考訳): 私たちは、強く、狭く、AIシステムを作るという問題を研究します。
最近のAIの進歩は、大規模な汎用基盤モデルのトレーニングによって推進されているが、狭いドメインに特化した小さなモデルの作成は、効率性と安全性の両方に価値がある。
本研究では、ニューラルネットワークがそれらの表現を学習し、構成する方法の基本的な性質と関係する、そのようなシステム構築に関わる2つの課題について検討する。
最初の課題は、狭いモデルをスクラッチからトレーニングできる時期についてである。
合成課題の実験を通して、その分布内で特定の狭義のスキルを学ぶために、幅広いデータ分布上のネットワークを訓練する必要があることが分かる。
この効果は、スキルが階層的に相互に依存するときに生じ、幅広い分布のトレーニングは、学習を大幅に加速するカリキュラムを導入する。
第2の課題は、大規模な一般モデルから小さな特殊モデルに特定のスキルを移す方法に関するものである。
モデルスキルが特定の実行可能なコンポーネント群に完全にローカライズされないことがよくあります。
しかし, 刈り取り法は, 蒸留法に勝るものの, 蒸留法に勝ることがわかった。
本研究では,不必要なスキルを学習しながら,所望のスキルを刈り取ることができるコンポーネントと整合させるための正規化の目的について検討する。
関連論文リスト
- Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning [10.598207472087578]
強化学習(Reinforcement Learning, RL)の手法は通常、新しいタスクをゼロから学習する。
この研究は、潜在的な原始的なスキルモーションを未知の特徴を持つ非パラメトリックな特性を持つものとしてモデル化する手法を導入する。
非パラメトリックモデル、特にDirichlet Process Mixturesは、出生とマージによって強化され、スキルの多様な性質を効果的に捉えるための事前トレーニングに使用される。
論文 参考訳(メタデータ) (2025-03-27T20:43:36Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Cooperative data-driven modeling [44.99833362998488]
メカニクスにおけるデータ駆動モデリングは、最近の機械学習の進歩に基づいて急速に進化している。
異なるグループによって作成された新しいデータとモデルが利用可能となり、協調モデリングの可能性が開ける。
人工ニューラルネットワークは、破滅的な忘れ、すなわち、新しいタスクでトレーニングされたときに古いタスクを実行する方法を忘れることに苦しむ。
これは、新しいタスクに既存のモデルを適用することが、誰かによって訓練された前のタスクのパフォーマンスに影響を与えるため、協力を妨げる。
論文 参考訳(メタデータ) (2022-11-23T14:27:25Z) - What Do Adversarially trained Neural Networks Focus: A Fourier
Domain-based Study [8.912245110734334]
この研究は、敵対的に訓練されたモデルがどのような情報に焦点を当てるかを研究する。
データ拡張とより強力なネットワークアーキテクチャによるモデルロバスト性を改善するための2つの一般的な方法を検討する。
論文 参考訳(メタデータ) (2022-03-16T16:37:17Z) - One Model, Multiple Tasks: Pathways for Natural Language Understanding [34.58880663537492]
本稿では,複数のタスクを同時に処理するためのPathwaysアプローチを提案する。
個々のタスクに過度に特化し、新しいタスクに拡張された時にスクラッチから学習する一般的な単一目的モデルとは異なり、我々のアプローチは既存のスキルを縫い合わせ、新しいタスクをより効果的に学習する能力で汎用的である。
論文 参考訳(メタデータ) (2022-03-07T11:48:09Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。