Fugu-MT 論文翻訳(概要): More Experts Than Galaxies: Conditionally-overlapping Experts With Biologically-Inspired Fixed Routing

論文の概要: More Experts Than Galaxies: Conditionally-overlapping Experts With Biologically-Inspired Fixed Routing

arxiv url: http://arxiv.org/abs/2410.08003v6
Date: Tue, 11 Feb 2025 23:18:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 15:57:39.222678
Title: More Experts Than Galaxies: Conditionally-overlapping Experts With Biologically-Inspired Fixed Routing
Title（参考訳）: ギャラクシー以上の専門家たち:生物学的にインスパイアされた固定されたルーティングを持つ条件付きオーバーラップの専門家たち
Authors: Sagi Shaier, Francisco Pereira, Katharina von der Wense, Lawrence E Hunter, Matt Jones,
Abstract要約: Conditionally Overlapping Mixture of ExperTs (COMET) は、モジュラーでスパースなアーキテクチャを、指数関数的に重複する専門家数で誘導する一般的なディープラーニング手法である。画像分類,言語モデリング,回帰といったタスクにおけるCOMETの有効性を示す。
参考スコア（独自算出の注目度）: 5.846028298833611
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The evolution of biological neural systems has led to both modularity and sparse coding, which enables energy efficiency and robustness across the diversity of tasks in the lifespan. In contrast, standard neural networks rely on dense, non-specialized architectures, where all model parameters are simultaneously updated to learn multiple tasks, leading to interference. Current sparse neural network approaches aim to alleviate this issue but are hindered by limitations such as 1) trainable gating functions that cause representation collapse, 2) disjoint experts that result in redundant computation and slow learning, and 3) reliance on explicit input or task IDs that limit flexibility and scalability. In this paper we propose Conditionally Overlapping Mixture of ExperTs (COMET), a general deep learning method that addresses these challenges by inducing a modular, sparse architecture with an exponential number of overlapping experts. COMET replaces the trainable gating function used in Sparse Mixture of Experts with a fixed, biologically inspired random projection applied to individual input representations. This design causes the degree of expert overlap to depend on input similarity, so that similar inputs tend to share more parameters. This results in faster learning per update step and improved out-of-sample generalization. We demonstrate the effectiveness of COMET on a range of tasks, including image classification, language modeling, and regression, using several popular deep learning architectures.
Abstract（参考訳）: 生物学的ニューラルネットワークの進化は、モジュール性とスパースコーディングの両方につながり、ライフスパンのタスクの多様性にまたがるエネルギー効率と堅牢性を実現する。対照的に、標準的なニューラルネットワークは密集した非特殊化アーキテクチャに依存しており、すべてのモデルパラメータを同時に更新して複数のタスクを学習し、干渉につながる。現在のスパースニューラルネットワークアプローチは、この問題を軽減することを目的としているが、例えば制限によって妨げられている。 1)表現の崩壊を引き起こす訓練可能なゲーティング関数。 2)冗長な計算と学習の遅さをもたらす専門家の離反 3) 柔軟性とスケーラビリティを制限する明示的な入力またはタスクIDに依存する。本稿では,重なり合う専門家の指数的な数でモジュラー・スパースアーキテクチャを誘導することにより,これらの課題に対処する一般的なディープラーニング手法であるComET(Conditionally Overlapping Mixture of ExperTs)を提案する。 COMETは、Sparse Mixture of Expertsで使用されるトレーニング可能なゲーティング関数を、個々の入力表現に適用された固定された生物学的にインスパイアされたランダムプロジェクションに置き換える。この設計により、専門家の重複度は入力の類似度に依存するため、類似した入力がより多くのパラメータを共有する傾向がある。これにより、更新ステップあたりの学習が高速化され、サンプル外一般化が改善される。本稿では,画像分類,言語モデリング,回帰といったタスクにおけるCOMETの有効性を,いくつかの人気のあるディープラーニングアーキテクチャを用いて実証する。

関連論文リスト

Split-on-Share: Mixture of Sparse Experts for Task-Agnostic Continual Learning [10.01449025634975]
大規模言語モデル(LLM)における連続学習は、可塑性安定性ジレンマによって妨げられる。モデルをモジュラー部分空間に分解することで可塑性と安定性の衝突を解決するフレームワークであるSETAを紹介する。 SETA は,パラメータ効率のよい連続学習法よりも常に優れていることを示す。
論文参考訳（メタデータ） (2026-01-24T22:39:22Z)
Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。 SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文参考訳（メタデータ） (2025-11-07T22:19:34Z)
Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文参考訳（メタデータ） (2025-09-29T12:55:50Z)
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation [39.921363034430875]
統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
論文参考訳（メタデータ） (2025-06-20T17:52:31Z)
ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。モデルは異なるデータセットで異なる表現を学習する。適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文参考訳（メタデータ） (2024-12-02T13:21:31Z)
Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文参考訳（メタデータ） (2024-11-27T15:58:07Z)
Flexible task abstractions emerge in linear networks with fast and bounded units [47.11054206483159]
重みとゲートが勾配降下によって協調的に最適化される線形ゲートネットワークを解析する。その結果,タスクの抽象化はタスクとサブタスクの合成による一般化を支援することがわかった。我々の研究は、シナプス的および神経的ゲーティングにおける関節勾配降下から生じる動物の認知的柔軟性の理論を提供する。
論文参考訳（メタデータ） (2024-11-06T11:24:02Z)
Modular Neural Network Approaches for Surgical Image Recognition [0.0]
本稿では,DCSS不安定性分類のためのモジュール型学習の異なるアーキテクチャを導入,評価する。実験の結果,モジュール型学習は非モジュール型システムと比較して性能が向上することがわかった。第2部では,肩関節鏡画像への自己訓練によるデータラベリングとセグメンテーションのアプローチを提案する。
論文参考訳（メタデータ） (2023-07-17T22:28:16Z)
Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文参考訳（メタデータ） (2022-11-11T21:58:15Z)
Improving the Robustness of Neural Multiplication Units with Reversible Stochasticity [2.4278445972594525]
多層パーセプトロンは、ある種の単純な算術的なタスクを学ぶのに苦労する。特殊神経NMU(sNMU)は可逆性を適用するために提案され、そのようなオプティマの回避を奨励する。
論文参考訳（メタデータ） (2022-11-10T14:56:37Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
Spatio-Temporal Representation Factorization for Video-based Person Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。 STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文参考訳（メタデータ） (2021-07-25T19:29:37Z)
Recognizing and Verifying Mathematical Equations using Multiplicative Differential Neural Units [86.9207811656179]
メモリ拡張ニューラルネットワーク(NN)は、高次、メモリ拡張外挿、安定した性能、より高速な収束を実現することができることを示す。本モデルでは,現在の手法と比較して1.53%の精度向上を達成し,2.22%のtop-1平均精度と2.96%のtop-5平均精度を達成している。
論文参考訳（メタデータ） (2021-04-07T03:50:11Z)
Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文参考訳（メタデータ） (2020-10-24T21:35:57Z)
Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文参考訳（メタデータ） (2020-10-01T17:51:49Z)
Beneficial Perturbation Network for designing general adaptive artificial intelligence systems [14.226973149346886]
我々は、動的状況に対応するために、ネットワーク外、タスク依存バイアスユニットを付加した新しいタイプのディープニューラルネットワークを提案する。我々のアプローチはメモリ効率が高く、パラメータ効率が高く、多くのタスクに対応でき、様々なタスクやドメインで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2020-09-27T01:28:10Z)
TorchDyn: A Neural Differential Equations Library [16.43439140464003]
継続的深層学習に特化したPyTorchライブラリであるTorchDynを紹介する。通常のプラグアンドプレイ深層学習プリミティブと同じくらいアクセスしやすいように、神経微分方程式を高めるように設計されている。
論文参考訳（メタデータ） (2020-09-20T03:45:49Z)
Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文参考訳（メタデータ） (2020-07-24T14:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。