論文の概要: Engineering flexible machine learning systems by traversing
functionally-invariant paths
- arxiv url: http://arxiv.org/abs/2205.00334v4
- Date: Sun, 3 Sep 2023 22:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 12:13:16.248103
- Title: Engineering flexible machine learning systems by traversing
functionally-invariant paths
- Title(参考訳): 機能的不変経路を横断するフレキシブル機械学習システム
- Authors: Guruprasad Raghavan, Bahey Tharwat, Surya Narayanan Hari, Dhruvil
Satani, Matt Thomson
- Abstract要約: ニューラルネットワークのフレキシブルかつ連続的な適応を提供する微分幾何学フレームワークを導入する。
重み空間における測地路に沿った移動として適応を定式化し,二次目的に対応するネットワークを探索する。
控えめな計算資源を用いて、FIPアルゴリズムは連続的な学習とスパーシフィケーションタスクにおけるアートパフォーマンスの状態を同等に達成する。
- 参考スコア(独自算出の注目度): 1.4999444543328289
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have emerged as the state of the art neural network architecture
for natural language processing and computer vision. In the foundation model
paradigm, large transformer models (BERT, GPT3/4, Bloom, ViT) are pre-trained
on self-supervised tasks such as word or image masking, and then, adapted
through fine-tuning for downstream user applications including instruction
following and Question Answering. While many approaches have been developed for
model fine-tuning including low-rank weight update strategies (eg. LoRA),
underlying mathematical principles that enable network adaptation without
knowledge loss remain poorly understood. Here, we introduce a differential
geometry framework, functionally invariant paths (FIP), that provides flexible
and continuous adaptation of neural networks for a range of machine learning
goals and network sparsification objectives. We conceptualize the weight space
of a neural network as a curved Riemannian manifold equipped with a metric
tensor whose spectrum defines low rank subspaces in weight space that
accommodate network adaptation without loss of prior knowledge. We formalize
adaptation as movement along a geodesic path in weight space while searching
for networks that accommodate secondary objectives. With modest computational
resources, the FIP algorithm achieves comparable to state of the art
performance on continual learning and sparsification tasks for language models
(BERT), vision transformers (ViT, DeIT), and the CNNs. Broadly, we
conceptualize a neural network as a mathematical object that can be iteratively
transformed into distinct configurations by the path-sampling algorithm to
define a sub-manifold of weight space that can be harnessed to achieve user
goals.
- Abstract(参考訳): トランスフォーマーは自然言語処理とコンピュータビジョンのための最先端のニューラルネットワークアーキテクチャとして登場した。
基礎モデルパラダイムでは、単語や画像マスキングなどの自己教師型タスクに対して、大きなトランスフォーマーモデル(BERT, GPT3/4, Bloom, ViT)を事前訓練し、その後、インストラクションフォローや質問応答を含むダウンストリームユーザアプリケーションの微調整により適応する。
低ランク更新戦略(LoRAなど)を含むモデル微調整のための多くのアプローチが開発されているが、知識損失のないネットワーク適応を可能にする基礎となる数学的原理は理解されていない。
本稿では,機械学習の目標やネットワークスパーシフィケーションの目的に対して,ニューラルネットワークを柔軟かつ連続的に適応するための微分幾何フレームワークfip(functionally invariant paths)を提案する。
我々は、ニューラルネットワークの重み空間を、スペクトルが、事前の知識を失うことなくネットワーク適応に対応する重み空間の低階部分空間を定義する計量テンソルを備えた曲面リーマン多様体として概念化する。
重み空間における測地路に沿った移動として適応を定式化し,二次目的に対応するネットワークを探索する。
控えめな計算資源を用いて、FIPアルゴリズムは、言語モデル(BERT)、視覚変換器(ViT、DeIT)、CNN(CNN)の連続学習およびスパーシフィケーションタスクにおける技術性能の状態を同等に達成する。
広義には、ニューラルネットワークを、パスサンプリングアルゴリズムによって異なる構成に反復的に変換できる数学的対象として捉え、ユーザー目標を達成するために利用できる重み空間のサブマニフォールドを定義する。
関連論文リスト
- Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Neuroevolution of Recurrent Architectures on Control Tasks [3.04585143845864]
並列に並列な進化的アルゴリズムを実装し、19のOpenAI Gym状態に基づく強化学習制御タスクで実験を行う。
動的エージェントは, パラメータの桁数を桁違いに減らしながら, 勾配に基づくエージェントの性能に適合するか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T16:29:18Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Solving hybrid machine learning tasks by traversing weight space
geodesics [6.09170287691728]
機械学習の問題は、ニューラルネットワークの重み空間を含む中心的な対象として固有の幾何学的構造を持つ。
本稿では,機械学習の目的を統一し,複数のクラスニューラルネットワークアーキテクチャに適用可能な幾何学的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-05T04:37:03Z) - A deep learning theory for neural networks grounded in physics [2.132096006921048]
ニューロモルフィックアーキテクチャ上で大規模で高速で効率的なニューラルネットワークを構築するには、それらを実装および訓練するためのアルゴリズムを再考する必要がある。
私たちのフレームワークは、非常に幅広いモデル、すなわち状態やダイナミクスが変動方程式によって記述されるシステムに適用されます。
論文 参考訳(メタデータ) (2021-03-18T02:12:48Z) - Learning without gradient descent encoded by the dynamics of a
neurobiological model [7.952666139462592]
本稿では,動的シグナリングの神経生物学的モデルを利用した機械学習の概念的アプローチを提案する。
MNIST画像は、教師なしの方法で、ほぼ最先端の精度で幾何学的ネットワークのダイナミクスによって一意に符号化され分類できることを示す。
論文 参考訳(メタデータ) (2021-03-16T07:03:04Z) - Continual Adaptation for Deep Stereo [52.181067640300014]
本稿では,難易度と変化の激しい環境に対処するために,深層ステレオネットワークの継続的適応パラダイムを提案する。
我々のパラダイムでは、オンラインモデルに継続的に適応するために必要な学習信号は、右から左への画像ワープや従来のステレオアルゴリズムによって自己監督から得られる。
我々のネットワークアーキテクチャと適応アルゴリズムは、初めてのリアルタイム自己適応型ディープステレオシステムを実現する。
論文 参考訳(メタデータ) (2020-07-10T08:15:58Z) - Deep neural networks for the evaluation and design of photonic devices [0.0]
レビュー:ディープニューラルネットワークは、トレーニングセットからどのように学習し、高速サロゲート電磁解法として動作するか。
フォトニクスの文脈内での基本的なデータ科学についても論じる。
論文 参考訳(メタデータ) (2020-06-30T19:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。