論文の概要: ChordMixer: A Scalable Neural Attention Model for Sequences with
Different Lengths
- arxiv url: http://arxiv.org/abs/2206.05852v2
- Date: Fri, 5 May 2023 21:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:56:17.705466
- Title: ChordMixer: A Scalable Neural Attention Model for Sequences with
Different Lengths
- Title(参考訳): ChordMixer: 長さの異なるシーケンスに対するスケーラブルなニューラルアテンションモデル
- Authors: Ruslan Khalitov, Tong Yu, Lei Cheng, Zhirong Yang
- Abstract要約: 可変長の長い列に対する注意をモデル化できる,ChordMixer と呼ばれる単純なニューラルネットワーク構築ブロックを提案する。
このようなブロックを繰り返し適用することは、入力信号を学習対象に向かって混合する効果的なネットワークバックボーンを形成する。
- 参考スコア(独自算出の注目度): 9.205331586765613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential data naturally have different lengths in many domains, with some
very long sequences. As an important modeling tool, neural attention should
capture long-range interaction in such sequences. However, most existing neural
attention models admit only short sequences, or they have to employ chunking or
padding to enforce a constant input length. Here we propose a simple neural
network building block called ChordMixer which can model the attention for long
sequences with variable lengths. Each ChordMixer block consists of a
position-wise rotation layer without learnable parameters and an element-wise
MLP layer. Repeatedly applying such blocks forms an effective network backbone
that mixes the input signals towards the learning targets. We have tested
ChordMixer on the synthetic adding problem, long document classification, and
DNA sequence-based taxonomy classification. The experiment results show that
our method substantially outperforms other neural attention models.
- Abstract(参考訳): 順序データは自然に多くの領域で異なる長さを持ち、非常に長い配列を持つ。
重要なモデリングツールとして、神経の注意はそのようなシーケンスで長距離の相互作用を捉えるべきである。
しかし、既存の神経注意モデルは短いシーケンスしか認めていないか、一定の入力長を強制するためにチャンクまたはパディングを用いる必要がある。
本稿では,可変長長列に対する注意をモデル化できるchordmixerと呼ばれる単純なニューラルネットワーク構築ブロックを提案する。
各コードミキサーブロックは、学習可能なパラメータのない位置方向回転層と、要素方向mlp層とからなる。
このようなブロックを繰り返し適用することは、入力信号を学習対象に向かって混合する効果的なネットワークバックボーンを形成する。
我々は、合成付加問題、長い文書分類、DNA配列に基づく分類について、ChordMixerを試験した。
実験の結果,本手法は他の神経注意モデルよりも有意に優れていた。
関連論文リスト
- MAMI: Multi-Attentional Mutual-Information for Long Sequence Neuron
Captioning [1.7243216387069678]
ニューロンラベリング(英: Neuron labeling)は、あるニューロンの振る舞いを可視化し、あるパターンに反応してニューロンを活性化するアプローチである。
以前の研究、すなわちMILANは、エンコーダのShow、 Attend、Tell(SAT)モデルを使用してニューロンの振る舞いを可視化し、デコーダにBahdanauが注目されたLSTMを追加した。
本研究では,異なる種類の注意機構を活用することでMILANの性能をさらに向上し,さらにいくつかの注意結果を付加したいと考えている。
論文 参考訳(メタデータ) (2024-01-05T10:41:55Z) - Multiscale Residual Learning of Graph Convolutional Sequence Chunks for
Human Motion Prediction [23.212848643552395]
時間的および空間的依存関係の学習による人間の動作予測のための新しい手法を提案する。
提案手法は,動作予測のためのシーケンス情報を効果的にモデル化し,他の手法よりも優れ,新しい最先端の手法を設定できる。
論文 参考訳(メタデータ) (2023-08-31T15:23:33Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Point process models for sequence detection in high-dimensional neural
spike trains [29.073129195368235]
本研究では,個々のスパイクレベルにおける微細なシーケンスを特徴付ける点過程モデルを開発する。
この超スパースなシーケンスイベント表現は、スパイクトレインモデリングの新しい可能性を開く。
論文 参考訳(メタデータ) (2020-10-10T02:21:44Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z) - Hard Non-Monotonic Attention for Character-Level Transduction [65.17388794270694]
2つの弦間の多くの非単調なアライメントを余剰化するための厳密な指数時間アルゴリズムを導入する。
ソフト・モノトニック・アテンションとハード・ノン・モノトニック・アテンションを実験的に比較したところ、正確なアルゴリズムは近似よりも性能を著しく改善し、ソフト・アテンションよりも優れていた。
論文 参考訳(メタデータ) (2018-08-29T20:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。