論文の概要: You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet
- arxiv url: http://arxiv.org/abs/2405.21022v1
- Date: Fri, 31 May 2024 17:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:29:24.339109
- Title: You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet
- Title(参考訳): 一度だけスキャンする: LightNet を用いた効率的なマルチ次元シーケンスモデリング
- Authors: Zhen Qin, Yuxin Mao, Xuyang Shen, Dong Li, Jing Zhang, Yuchao Dai, Yiran Zhong,
- Abstract要約: 我々は,新しい再帰性に基づいて,LightNetと呼ばれる効率的な多次元逐次モデリングフレームワークを開発した。
MD-TPEとMD-LRPEという2つの新しい多次元線形相対的位置符号化手法を提案し,多次元シナリオにおける位置情報の識別能力を高める。
- 参考スコア(独自算出の注目度): 47.48142221329556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention mechanisms have gained prominence in causal language models due to their linear computational complexity and enhanced speed. However, the inherent decay mechanism in linear attention presents challenges when applied to multi-dimensional sequence modeling tasks, such as image processing and multi-modal learning. In these scenarios, the utilization of sequential scanning to establish a global receptive field necessitates multiple scans for multi-dimensional data, thereby leading to inefficiencies. This paper identifies the inefficiency caused by a multiplicative linear recurrence and proposes an efficient alternative additive linear recurrence to avoid the issue, as it can handle multi-dimensional data within a single scan. We further develop an efficient multi-dimensional sequential modeling framework called LightNet based on the new recurrence. Moreover, we present two new multi-dimensional linear relative positional encoding methods, MD-TPE and MD-LRPE to enhance the model's ability to discern positional information in multi-dimensional scenarios. Our empirical evaluations across various tasks, including image classification, image generation, bidirectional language modeling, and autoregressive language modeling, demonstrate the efficacy of LightNet, showcasing its potential as a versatile and efficient solution for multi-dimensional sequential modeling.
- Abstract(参考訳): 線形注意機構は, 線形計算複雑性と高速化により, 因果言語モデルにおいて顕著である。
しかし、線形注意における固有減衰機構は、画像処理やマルチモーダル学習といった多次元シーケンスモデリングタスクに適用する際の課題を提起する。
これらのシナリオでは、グローバルな受容場を確立するためにシーケンシャルスキャンを利用することで、多次元データに複数のスキャンを必要とするため、非効率になる。
本稿では,乗算線形再帰による非効率性を同定し,一走査で多次元データを処理できるため,この問題を回避するために効率的な代替線形再帰法を提案する。
さらに,新しい再帰性に基づく多次元連続モデリングフレームワークLightNetを開発した。
さらに, MD-TPE と MD-LRPE という2つの新しい多次元線形相対的位置符号化手法を提案する。
画像分類,画像生成,双方向言語モデリング,自動回帰言語モデリングなど,様々なタスクに対する実証的評価を行い,LightNetの有効性を実証し,多次元逐次モデリングの汎用的で効率的なソリューションとしての可能性を示した。
関連論文リスト
- MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - Enhancing Deep Learning Models through Tensorization: A Comprehensive
Survey and Framework [0.0]
本稿では,多次元データソース,様々なマルチウェイ解析手法,およびこれらの手法の利点について考察する。
2次元アルゴリズムとPythonのマルチウェイアルゴリズムを比較したBlind Source separation(BSS)の小さな例を示す。
その結果,マルチウェイ解析の方が表現力が高いことが示唆された。
論文 参考訳(メタデータ) (2023-09-05T17:56:22Z) - Multilevel Diffusion: Infinite Dimensional Score-Based Diffusion Models for Image Generation [2.5556910002263984]
スコアベース拡散モデル (SBDM) は画像生成のための最先端のアプローチとして登場した。
本稿では, 無限次元のSBDM, すなわち, 矩形領域でサポートされている関数としてトレーニングデータをモデル化する。
無限次元設定において、現在のSBDMアプローチの2つの欠点を克服する方法を実証する。
論文 参考訳(メタデータ) (2023-03-08T18:10:10Z) - A Model-data-driven Network Embedding Multidimensional Features for
Tomographic SAR Imaging [5.489791364472879]
多次元特徴量に基づくトモSARイメージングを実現するためのモデルデータ駆動型ネットワークを提案する。
画像シーンの多次元的特徴を効果的に向上するために、2つの2次元処理モジュール(畳み込みエンコーダ-デコーダ構造)を追加します。
従来のCS-based FISTA法とDL-based gamma-Net法と比較して,提案手法は良好な画像精度を有しつつ,完全性を向上させる。
論文 参考訳(メタデータ) (2022-11-28T02:01:43Z) - FAS-UNet: A Novel FAS-driven Unet to Learn Variational Image
Segmentation [3.741136641573471]
本稿では,そのモデルとアルゴリズムを利用してマルチスケールの特徴を抽出する新しい変動モデルインフォームドネットワーク(FAS-Unet)を提案する。
提案するネットワークは,画像データと数理モデルを統合し,いくつかの畳み込みカーネルを学習して実装する。
実験結果から,提案するFAS-Unetは,定性的,定量的,モデル複雑度評価において,他の最先端手法と非常に競合することが示された。
論文 参考訳(メタデータ) (2022-10-27T04:15:16Z) - Limited-angle tomographic reconstruction of dense layered objects by
dynamical machine learning [68.9515120904028]
強い散乱準透明物体の有限角トモグラフィーは困難で、非常に不適切な問題である。
このような問題の状況を改善することにより、アーティファクトの削減には、事前の定期化が必要である。
我々は,新しい分割畳み込みゲート再帰ユニット(SC-GRU)をビルディングブロックとして,リカレントニューラルネットワーク(RNN)アーキテクチャを考案した。
論文 参考訳(メタデータ) (2020-07-21T11:48:22Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。