論文の概要: Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2402.18508v1
- Date: Wed, 28 Feb 2024 17:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 14:05:54.858572
- Title: Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling
- Title(参考訳): Orchid: シーケンスモデリングのためのフレキシブルでデータ依存の畳み込み
- Authors: Mahdi Karami and Ali Ghodsi
- Abstract要約: 本稿では,新たなデータ依存畳み込み機構を導入することで,シーケンスモデリングを再現する新しいアーキテクチャであるOrchidを紹介する。
Orchidのコアにはデータ依存の畳み込み層があり、専用のコンディショニングニューラルネットワークを使用して、入力データに条件付けされたカーネルを動的に調整する。
言語モデリングや画像分類など,複数の領域にわたるOrchidを厳格に評価し,その性能と汎用性を示す。
- 参考スコア(独自算出の注目度): 4.950918703901984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving landscape of deep learning, the quest for models that
balance expressivity with computational efficiency has never been more
critical. This paper introduces Orchid, a novel architecture that reimagines
sequence modeling by incorporating a new data-dependent convolution mechanism.
Orchid is designed to address the inherent limitations of traditional attention
mechanisms, particularly their quadratic complexity, without compromising the
ability to capture long-range dependencies and in-context learning. At the core
of Orchid lies the data-dependent convolution layer, which dynamically adjusts
its kernel conditioned on input data using a dedicated conditioning neural
network. We design two simple conditioning networks that maintain shift
equivariance in the adaptive convolution operation. The dynamic nature of
data-dependent convolution kernel, coupled with gating operations, grants
Orchid high expressivity while maintaining efficiency and quasilinear
scalability for long sequences. We rigorously evaluate Orchid across multiple
domains, including language modeling and image classification, to showcase its
performance and generality. Our experiments demonstrate that Orchid
architecture not only outperforms traditional attention-based architectures
such as BERT and Vision Transformers with smaller model sizes, but also extends
the feasible sequence length beyond the limitations of the dense attention
layers. This achievement represents a significant step towards more efficient
and scalable deep learning models for sequence modeling.
- Abstract(参考訳): ディープラーニングの急速な発展の中で、表現力と計算効率のバランスをとるモデルの探求は、決して重要ではない。
本稿では,新しいデータ依存畳み込み機構を取り入れ,シーケンスモデリングを再考する新しいアーキテクチャであるorchidを提案する。
Orchidは、長距離依存やコンテキスト内学習をキャプチャする能力を損なうことなく、従来の注意機構、特にその二次的な複雑さの固有の制限に対処するように設計されている。
orchidの中核はデータ依存畳み込み層であり、専用の条件付きニューラルネットワークを使用して、入力データに条件付けられたカーネルを動的に調整する。
適応畳み込み演算においてシフト等分散を維持する2つの単純な条件付きネットワークを設計する。
データ依存型畳み込みカーネルの動的性質は、ゲーティング操作と相まって、オーキッド高表現性を付与し、長いシーケンスの効率性と準線形スケーラビリティを維持する。
言語モデリングや画像分類など,複数の領域にわたるOrchidを厳格に評価し,その性能と汎用性を示す。
実験により,Orchid アーキテクチャは BERT や Vision Transformer などの従来の注目型アーキテクチャよりも小さいモデルサイズで性能を向上するだけでなく,高密度アテンション層の限界を超えて,実行可能なシーケンス長を延長することを示した。
この成果は、シーケンスモデリングのためのより効率的でスケーラブルなディープラーニングモデルに向けた重要なステップである。
関連論文リスト
- The Bigger the Better? Rethinking the Effective Model Scale in Long-term
Time Series Forecasting [57.00348861248051]
時系列予測は時系列分析において重要なフロンティアである。
階層的な分解で拡張された軽量トランスフォーマーであるHDformerを紹介する。
HDformerは既存のLTSFモデルよりも優れており、パラメータは99%以上少ない。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Layer-wise Shared Attention Network on Dynamical System Perspective [69.45492795788167]
本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Flexible Triggering Kernels for Hawkes Process Modeling [11.90725359131405]
近年、ホークスプロセスのモデリングのためのエンコーダ・デコーダ構造は、トランスフォーマーにインスパイアされたアーキテクチャを用いている。
複雑な(多層化)アテンション構造をトリガーカーネルに置き換えることで、歴史的イベントシーケンスの効率的で汎用的なエンコーディングを導入する。
論文 参考訳(メタデータ) (2022-02-03T22:02:22Z) - Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。
Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文 参考訳(メタデータ) (2021-08-26T08:05:07Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Scaling Local Self-Attention For Parameter Efficient Visual Backbones [29.396052798583234]
自己注意は、パラメータ非依存のスケールとコンテンツ依存の相互作用により、コンピュータビジョンシステムを改善するという約束がある。
私たちは、ImageNet分類ベンチマークのパラメータ制限設定で最新の精度に達する新しいセルフアテンションモデルファミリー、emphHaloNetsを開発しました。
論文 参考訳(メタデータ) (2021-03-23T17:56:06Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - DynamicEmbedding: Extending TensorFlow for Colossal-Scale Applications [0.0]
今日、スパースな特徴を持つディープラーニングモデルの制限の1つは、入力の事前定義された性質に起因している。
結果のモデルは、はるかに大きなスケールで、より良く、効率的に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-17T17:43:51Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。