論文の概要: From MLP to NeoMLP: Leveraging Self-Attention for Neural Fields
- arxiv url: http://arxiv.org/abs/2412.08731v1
- Date: Wed, 11 Dec 2024 19:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:45.045161
- Title: From MLP to NeoMLP: Leveraging Self-Attention for Neural Fields
- Title(参考訳): MLPからNeoMLPへ:ニューラルネットワークの自己認識を活用する
- Authors: Miltiadis Kofinas, Samuele Papa, Efstratios Gavves,
- Abstract要約: 我々は,NeoMLPと呼ばれる,隠れたスケーラブルなノードに基づく新しいタイプの接続性を開発している。
マルチモーダル音声・視覚データを含む高分解能信号を取り付けることで,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 26.659511924272962
- License:
- Abstract: Neural fields (NeFs) have recently emerged as a state-of-the-art method for encoding spatio-temporal signals of various modalities. Despite the success of NeFs in reconstructing individual signals, their use as representations in downstream tasks, such as classification or segmentation, is hindered by the complexity of the parameter space and its underlying symmetries, in addition to the lack of powerful and scalable conditioning mechanisms. In this work, we draw inspiration from the principles of connectionism to design a new architecture based on MLPs, which we term NeoMLP. We start from an MLP, viewed as a graph, and transform it from a multi-partite graph to a complete graph of input, hidden, and output nodes, equipped with high-dimensional features. We perform message passing on this graph and employ weight-sharing via self-attention among all the nodes. NeoMLP has a built-in mechanism for conditioning through the hidden and output nodes, which function as a set of latent codes, and as such, NeoMLP can be used straightforwardly as a conditional neural field. We demonstrate the effectiveness of our method by fitting high-resolution signals, including multi-modal audio-visual data. Furthermore, we fit datasets of neural representations, by learning instance-specific sets of latent codes using a single backbone architecture, and then use them for downstream tasks, outperforming recent state-of-the-art methods. The source code is open-sourced at https://github.com/mkofinas/neomlp.
- Abstract(参考訳): ニューラルフィールド(NeFs)は、様々なモーダルの時空間信号を符号化する最先端の手法として最近登場した。
個々の信号の再構成におけるNeFsの成功にもかかわらず、分類やセグメンテーションなどの下流タスクにおける表現としての使用は、強力な拡張性のある条件付け機構の欠如に加えて、パラメータ空間とその基盤となる対称性の複雑さによって妨げられている。
本研究では,MLPをベースとした新しいアーキテクチャを設計する上で,コネクショナリズムの原理からインスピレーションを得ている。
まず、マルチパーティトグラフから、高次元の特徴を備えた入力、隠蔽、出力ノードの完全なグラフに変換する。
このグラフ上でメッセージパッシングを行い、すべてのノードで自己注意によるウェイトシェアリングを採用しています。
NeoMLPには、隠されたノードと出力ノードを通して条件付けを行うための組み込みメカニズムがあり、遅延コードのセットとして機能し、NeoMLPは条件付きニューラルネットワークとして簡単に使用することができる。
マルチモーダル音声・視覚データを含む高分解能信号を取り付けることで,本手法の有効性を実証する。
さらに、単一のバックボーンアーキテクチャを用いて潜在コードのインスタンス固有のセットを学習し、下流タスクに使用することで、ニューラル表現のデータセットを適合させ、最近の最先端メソッドよりも優れています。
ソースコードはhttps://github.com/mkofinas/neomlp.comで公開されている。
関連論文リスト
- SimMLP: Training MLPs on Graphs without Supervision [38.63554842214315]
グラフ学習のための自己教師型フレームワークであるSimMLPを紹介する。
SimMLPは、最適の場合において、GNNと等価性を達成できる最初の学習方法である。
我々は、相互情報と帰納バイアスに基づいて、SimMLPとGNNの等価性を示す包括的な理論的分析を行う。
論文 参考訳(メタデータ) (2024-02-14T03:16:13Z) - Graph Neural Machine: A New Model for Learning with Tabular Data [25.339493426758903]
グラフニューラルネットワーク(GNN)は最近、グラフ上で機械学習タスクを実行するための標準ツールになっている。
本稿では,表現が非同期メッセージパッシングGNNモデルと等価であることを示す。
次に、データのための新しい機械学習モデル、いわゆるグラフニューラルネットワーク(GNM)を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:22:15Z) - SiT-MLP: A Simple MLP with Point-wise Topology Feature Learning for Skeleton-based Action Recognition [9.673505408890435]
グラフネットワーク(GCN)は骨格に基づく行動認識において顕著な性能を発揮している。
従来のGCNベースの手法は、精巧な人間の先行を過度に頼り、複雑な特徴集約機構を構築した。
本研究では骨格に基づく行動認識のための新しいモデルSiT-MLPを提案する。
論文 参考訳(メタデータ) (2023-08-30T13:20:54Z) - Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。
具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。
提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-01-21T04:08:46Z) - NOSMOG: Learning Noise-robust and Structure-aware MLPs on Graphs [41.85649409565574]
グラフネットワーク(GNN)は、非ユークリッド構造データを扱う上での有効性を実証している。
既存の方法は、ノードコンテンツ機能にのみ依存するマルチ層パーセプトロン(MLP)をトレーニングすることで、このスケーラビリティ問題に対処しようとする。
本稿では,NOSMOG(Noise-robust Structure-Awares On Graphs)を学習し,その課題を克服する。
論文 参考訳(メタデータ) (2022-08-22T01:47:07Z) - GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Graph-MLP: Node Classification without Message Passing in Graph [28.604893350871777]
グラフニューラルネットワーク(GNN)は、非ユークリッド構造データを扱う上での有効性を実証している。
最近の研究は主に強力なメッセージパッシングモジュールに焦点を当てているが、この記事では、メッセージパッシングモジュールは必要ないことを示す。
本稿では,グラフ構造を利用した教師信号を用いた,純粋な多層パーセプトロンベースのGraph-MLPを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:07:21Z) - Fourier Features Let Networks Learn High Frequency Functions in Low
Dimensional Domains [69.62456877209304]
単純なフーリエ特徴写像を通して入力点を渡すことで、多層パーセプトロンが高周波関数を学習できることを示す。
結果は、最先端の結果を達成するコンピュータビジョンとグラフィックの進歩に光を当てた。
論文 参考訳(メタデータ) (2020-06-18T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。