論文の概要: Towards Distributed Neural Architectures
- arxiv url: http://arxiv.org/abs/2506.22389v1
- Date: Fri, 27 Jun 2025 16:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.297942
- Title: Towards Distributed Neural Architectures
- Title(参考訳): 分散ニューラルネットワークを目指して
- Authors: Aditya Cowsik, Tianyu He, Andrey Gromov,
- Abstract要約: 視覚領域と言語領域に分散ニューラルネットワーク(DNA)を導入し、訓練する。
DNAは(トランスフォーマー、計算、注意など)モジュールとルータで構成されるプロトアーキテクチャを持つ。
DNAモジュールの計算と通信パターンは、トレーニング中にエンドツーエンドに学習される。
- 参考スコア(独自算出の注目度): 5.854190253899593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce and train distributed neural architectures (DNA) in vision and language domains. DNAs are initialized with a proto-architecture that consists of (transformer, MLP, attention, etc.) modules and routers. Any token (or patch) can traverse any series of modules in any order. DNAs are a natural generalization of the sparse methods such as Mixture-of-Experts, Mixture-of-Depths, parameter sharing, etc. Computation and communication patterns of DNA modules are learnt end-to-end during training and depend on the content and context of each token (or patch). These patterns can be shaped by further requirements added to the optimization objective such as compute/memory efficiency or load balancing. We empirically show that (i) trained DNAs are competitive with the dense baselines in both domains and (ii) compute efficiency/parameter sharing can be learnt from data. Next, we analyze the emergent connectivity and computation patterns in the trained DNAs. We find that the paths that tokens take through the models are themselves distributed according to a power-law. We show that some paths (or, equivalently, groups of modules) show emergent specialization. Finally, we demonstrate that models learn to allocate compute and active parameters in an interpretable way.
- Abstract(参考訳): 視覚領域と言語領域に分散ニューラルネットワーク(DNA)を導入し、訓練する。
DNAは(トランスフォーマー、MLP、アテンションなど)モジュールとルータで構成されるプロトアーキテクチャで初期化される。
任意のトークン(またはパッチ)は任意の順序で任意の一連のモジュールを横切ることができる。
DNAは、Mixture-of-Experts、Mixture-of-Depths、パラメータ共有などのスパースメソッドの自然な一般化である。
DNAモジュールの計算と通信パターンは、トレーニング中にエンドツーエンドに学習され、各トークン(またはパッチ)の内容とコンテキストに依存する。
これらのパターンは、計算/メモリ効率やロードバランシングといった最適化目標に追加されるさらなる要件によって形成することができる。
私たちはそれを経験的に示します
i)訓練されたDNAは、両方のドメインの高密度塩基と競合する。
(ii)データから計算効率/パラメータ共有を学習することができる。
次に、トレーニングされたDNAの創発的な接続性と計算パターンを分析する。
トークンがモデルを通過するパスは、権限法に従って分散されていることが分かりました。
いくつかの経路(または同値な加群の群)が創発的特殊化を示すことを示す。
最後に、モデルが計算パラメータとアクティブパラメータを解釈可能な方法で割り当てることを学ぶことを実証する。
関連論文リスト
- Learning to Add, Multiply, and Execute Algorithmic Instructions Exactly with Neural Networks [5.3800094588915375]
無限幅限界における2層完全連結ネットワークのトレーニング力学について検討する。
このようなモデルの十分な大規模なアンサンブルが、高い確率で正確に実行するためにどのように訓練されるかを示す。
対数的に多くのトレーニングデータだけを用いて効率よく達成できることを示します。
論文 参考訳(メタデータ) (2025-02-24T00:50:02Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - Symmetry Discovery for Different Data Types [52.2614860099811]
等価ニューラルネットワークは、そのアーキテクチャに対称性を取り入れ、より高度な一般化性能を実現する。
本稿では,タスクの入出力マッピングを近似したトレーニングニューラルネットワークによる対称性発見手法であるLieSDを提案する。
我々は,2体問題,慣性行列予測のモーメント,トップクォークタグ付けといった課題におけるLieSDの性能を検証した。
論文 参考訳(メタデータ) (2024-10-13T13:39:39Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。