Fugu-MT 論文翻訳(概要): Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling

論文の概要: Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling

arxiv url: http://arxiv.org/abs/2402.18508v2
Date: Fri, 24 May 2024 05:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 20:56:39.354452
Title: Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling
Title（参考訳）: Orchid: シーケンスモデリングのためのフレキシブルでデータ依存の畳み込み
Authors: Mahdi Karami, Ali Ghodsi,
Abstract要約: 本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
参考スコア（独自算出の注目度）: 4.190836962132713
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the rapidly evolving field of deep learning, the demand for models that are both expressive and computationally efficient has never been more critical. This paper introduces Orchid, a novel architecture designed to address the quadratic complexity of traditional attention mechanisms without compromising the ability to capture long-range dependencies and in-context learning. At the core of this architecture lies a new data-dependent global convolution layer, which contextually adapts its kernel conditioned on input sequence using a dedicated conditioning neural network. We design two simple conditioning networks that maintain shift equivariance in our data-dependent convolution operation. The dynamic nature of the proposed convolution kernel grants Orchid high expressivity while maintaining quasilinear scalability for long sequences. We evaluate the proposed model across multiple domains, including language modeling and image classification, to highlight its performance and generality. Our experiments demonstrate that this architecture not only outperforms traditional attention-based architectures such as BERT and Vision Transformers with smaller model sizes, but also extends the feasible sequence length beyond the limitations of the dense attention layers. This achievement represents a significant step towards more efficient and scalable deep learning models for sequence modeling.
Abstract（参考訳）: ディープラーニングの急速に発展する分野では、表現力と計算効率の両方のモデルに対する需要は、これまで以上に重要とされてきた。本稿では,従来の注意機構の2次複雑さに対処するためのアーキテクチャであるOrchidを紹介する。このアーキテクチャの中核に新しいデータ依存のグローバル畳み込み層があり、専用の条件付きニューラルネットワークを使用して、入力シーケンスにカーネル条件を文脈的に適合させる。データ依存的畳み込み動作におけるシフト等価性を維持する2つの単純な条件付きネットワークを設計する。提案した畳み込みカーネルの動的性質は、長いシーケンスに対する準線形スケーラビリティを維持しながら、Orchidに高い表現性を与える。言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。実験により,このアーキテクチャは,BERTやVision Transformerなどの従来のアテンションベースアーキテクチャよりもモデルサイズが小さいだけでなく,高密度アテンション層の限界を超えて,実行可能なシーケンス長も拡張できることを示した。この成果は、シーケンスモデリングのためのより効率的でスケーラブルなディープラーニングモデルに向けた重要なステップである。

関連論文リスト

Data Classification with Dynamically Growing and Shrinking Neural Networks [0.0]
トレーニング中のモデルの動的縮小と成長を可能にするプロシージャを備えたニューラルネットワークの作り方の詳細を示す。提案手法は,視覚と時系列の両方のデータセットを用いて検証した。
論文参考訳（メタデータ） (2025-06-23T19:52:01Z)
Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2025-02-01T15:49:59Z)
Multi-Head Self-Attending Neural Tucker Factorization [5.734615417239977]
本稿では,高次元および不完全(HDI)テンソルの学習表現に適したニューラルネットワークに基づくテンソル分解手法を提案する。提案したMSNTucFモデルでは,観測結果の欠落を推定する上で,最先端のベンチマークモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2025-01-16T13:04:15Z)
STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。 STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文参考訳（メタデータ） (2024-11-26T18:42:42Z)
Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。 AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文参考訳（メタデータ） (2024-11-21T02:15:52Z)
Topological Deep Learning with State-Space Models: A Mamba Approach for Simplicial Complexes [4.787059527893628]
本稿では,Mamba状態空間モデルをバックボーンとして利用して,単純な複素数を扱うように設計された新しいアーキテクチャを提案する。提案手法は, 隣接セルをベースとしたノードのシーケンスを生成し, ランクに関わらず, 上位構造間の直接通信を可能にする。
論文参考訳（メタデータ） (2024-09-18T14:49:25Z)
GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文参考訳（メタデータ） (2024-06-04T15:09:29Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
Learning From Simplicial Data Based on Random Walks and 1D Convolutions [6.629765271909503]
ランダムウォークと高速1D畳み込みに基づく単純な複雑なニューラルネットワーク学習アーキテクチャ。実世界のデータセット上でSCRaWlを実証的に評価し、他の単純なニューラルネットワークよりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-04T13:27:22Z)
Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。 5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文参考訳（メタデータ） (2023-08-26T08:48:51Z)
Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。 NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。 NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文参考訳（メタデータ） (2022-10-14T18:00:07Z)
Multi-Scale Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。 MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-11-07T03:50:50Z)
Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。 Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文参考訳（メタデータ） (2021-08-26T08:05:07Z)
DynamicEmbedding: Extending TensorFlow for Colossal-Scale Applications [0.0]
今日、スパースな特徴を持つディープラーニングモデルの制限の1つは、入力の事前定義された性質に起因している。結果のモデルは、はるかに大きなスケールで、より良く、効率的に実行可能であることを示す。
論文参考訳（メタデータ） (2020-04-17T17:43:51Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。