論文の概要: Mixer is more than just a model
- arxiv url: http://arxiv.org/abs/2402.18007v2
- Date: Sat, 2 Mar 2024 03:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:36:15.764657
- Title: Mixer is more than just a model
- Title(参考訳): Mixerは単なるモデルではない
- Authors: Qingfeng Ji, Yuxin Wang, Letong Sun
- Abstract要約: 本研究は、ロールタイムとハーミットFFT(ASM-RH)を用いたオーディオスペクトログラムミキサーという新しいモデルを導入することで、音声認識の領域に焦点を当てる。
実験により、ASM-RHは音声データに特に適しており、複数の分類タスクで有望な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 23.309064032922507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, MLP structures have regained popularity, with MLP-Mixer standing
out as a prominent example. In the field of computer vision, MLP-Mixer is noted
for its ability to extract data information from both channel and token
perspectives, effectively acting as a fusion of channel and token information.
Indeed, Mixer represents a paradigm for information extraction that amalgamates
channel and token information. The essence of Mixer lies in its ability to
blend information from diverse perspectives, epitomizing the true concept of
"mixing" in the realm of neural network architectures. Beyond channel and token
considerations, it is possible to create more tailored mixers from various
perspectives to better suit specific task requirements. This study focuses on
the domain of audio recognition, introducing a novel model named Audio
Spectrogram Mixer with Roll-Time and Hermit FFT (ASM-RH) that incorporates
insights from both time and frequency domains. Experimental results demonstrate
that ASM-RH is particularly well-suited for audio data and yields promising
outcomes across multiple classification tasks. The models and optimal weights
files will be published.
- Abstract(参考訳): 近年、MLP構造が復活し、MLP-Mixerが顕著な例となっている。
コンピュータビジョンの分野では、mlp-mixerはチャネルとトークンの両方の観点からデータ情報を抽出でき、チャネルとトークン情報の融合として効果的に機能する。
事実、mixerはチャネルとトークン情報を融合した情報抽出のパラダイムを表している。
ミキサーの本質は、様々な視点から情報をブレンドし、ニューラルネットワークアーキテクチャの領域における「ミックス」の真の概念を具現化する能力にある。
チャネルやトークンの考慮を超えて、さまざまな観点からよりカスタマイズされたミキサーを作成して、特定のタスク要求に適合させることができる。
本研究は,時間領域と周波数領域の両方から洞察を取り入れた,ロールタイムとハーミットFFT(ASM-RH)を用いたオーディオスペクトログラムミキサーという新しいモデルを導入することを目的とした。
実験により、ASM-RHは音声データに特に適しており、複数の分類タスクで有望な結果が得られることが示された。
モデルと最適な重み付けファイルが公開される。
関連論文リスト
- EMOFM: Ensemble MLP mOdel with Feature-based Mixers for Click-Through
Rate Prediction [5.983194751474721]
データセットには数百万のレコードが含まれており、レコード内の各フィールドワイド機能は、プライバシのためのハッシュされた整数で構成されている。
このタスクのために、ネットワークベースの手法のキーは、異なるフィールドにまたがるタイプワイドな特徴抽出と情報融合であるかもしれない。
フィールド/タイプワイド機能融合のためのプラグインミキサーを提案し、フィールド/タイプワイドアンサンブルモデル、すなわちEMOFMを構築する。
論文 参考訳(メタデータ) (2023-10-06T12:32:23Z) - iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer [2.5782420501870296]
ホップフィールドネットワークとトランスフォーマーのようなアーキテクチャの研究をiMixerに一般化する。
iMixerは、出力側から入力側へ前進する一般化である。
画像分類タスクにおいて,様々なデータセットを用いてモデル性能を評価する。
この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - SplitMixer: Fat Trimmed From MLP-like Models [53.12472550578278]
視覚認識のためのシンプルで軽量な等方的アーキテクチャであるSplitMixerを提案する。
情報(空間混合)とチャネル(チャネル混合)の2種類のインターリーブ畳み込み操作を含む。
論文 参考訳(メタデータ) (2022-07-21T01:37:07Z) - ActiveMLP: An MLP-like Architecture with Active Token Mixer [54.95923719553343]
本稿では,コンピュータビジョンのための一般的なバックボーンであるActiveMLPを提案する。
我々は、グローバルな範囲の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込む、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。
このように、トークンミキシングの空間範囲を拡大し、トークンミキシングの方法を変更する。
論文 参考訳(メタデータ) (2022-03-11T17:29:54Z) - DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文 参考訳(メタデータ) (2022-01-28T12:43:14Z) - PointMixer: MLP-Mixer for Point Cloud Understanding [74.694733918351]
チャネルミキシングとトークンミキシングの概念は、視覚認識タスクにおいて顕著なパフォーマンスを達成する。
画像とは異なり、点雲は本質的にスパースで、秩序がなく、不規則であり、点雲の理解にユニバーサルミクサーを直接使用することを制限する。
本稿では,非構造化3次元点間の情報共有を容易にする共通点集合演算子であるPointMixerを提案する。
論文 参考訳(メタデータ) (2021-11-22T13:25:54Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - MixMo: Mixing Multiple Inputs for Multiple Outputs via Deep Subnetworks [97.08677678499075]
マルチインプットマルチアウトプットディープワークを学ぶための新しいフレームワークであるMixMoを紹介します。
機能、特にCutMixのパッチによるバイナリの混合は、ワークをより強く、より多様なものにすることによって、結果を向上します。
実装が容易で、推論にコストがかかることに加えて、我々のモデルはよりコストの高いデータ拡張深層アンサンブルよりも優れています。
論文 参考訳(メタデータ) (2021-03-10T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。