論文の概要: GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2311.01927v2
- Date: Sat, 27 Jan 2024 14:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 21:21:30.405200
- Title: GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling
- Title(参考訳): gateloop: シーケンスモデリングのためのデータ制御リニアリカバリ
- Authors: Tobias Katsch
- Abstract要約: S4, S5, LRU, RetNet などの線形リカレントモデルを一般化したシーケンスモデルである GateLoop を開発した。
GateLoopは、自動回帰言語モデリングの既存のモデルよりも経験的に優れている。
提案手法は,データ制御による相対配置情報の提供と解釈できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear Recurrence has proven to be a powerful tool for modeling long
sequences efficiently. In this work, we show that existing models fail to take
full advantage of its potential. Motivated by this finding, we develop
GateLoop, a foundational sequence model that generalizes linear recurrent
models such as S4, S5, LRU and RetNet, by employing data-controlled state
transitions. Utilizing this theoretical advance, GateLoop empirically
outperforms existing models for auto-regressive language modeling. Our method
comes with a low-cost $O(l)$ recurrent mode and an efficient $O(l \log_{2} l)$
parallel mode making use of highly optimized associative scan implementations.
Furthermore, we derive an $O(l^2)$ surrogate attention mode, revealing
remarkable implications for Transformer and recently proposed architectures.
Specifically, we prove that our approach can be interpreted as providing
data-controlled relative-positional information to Attention. While many
existing models solely rely on data-controlled cumulative sums for context
aggregation, our findings suggest that incorporating data-controlled complex
cumulative products may be a crucial step towards more powerful sequence
models.
- Abstract(参考訳): 線形反復は長いシーケンスを効率的にモデリングするための強力なツールであることが証明されている。
本研究では,既存のモデルがその潜在能力を十分に活用できないことを示す。
そこで我々は,データ制御状態遷移を用いて,S4,S5,LRU,RetNetなどの線形リカレントモデルを一般化した基本シーケンスモデルであるGateLoopを開発した。
この理論的な進歩を利用して、GateLoopは自動回帰言語モデリングの既存のモデルよりも経験的に優れている。
提案手法は,高度に最適化された連想スキャン実装を用いて,低コストな$O(l)$リカレントモードと効率的な$O(l \log_{2} l)$並列モードを備える。
さらに、Transformerや最近提案されたアーキテクチャに顕著な意味を持つ、$O(l^2)$サロゲートアテンションモードを導出する。
具体的には,本手法がデータ制御された相対配置情報を注意に提供できることを示す。
既存のモデルの多くは、文脈集約のためのデータ制御累積和のみに依存するが、データ制御された複雑な累積積積積積積積積積を組み込むことは、より強力なシーケンスモデルへの重要なステップであることが示唆される。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Predictive Modeling in the Reservoir Kernel Motif Space [0.9217021281095907]
本研究では,線形貯水池のカーネルビューに基づく時系列予測手法を提案する。
我々は、我々のアプローチがコア貯水池モデルとどのように関係しているかについての光を遮蔽するアプローチの幾何学的解釈を提供する。
実験では,提案モデルの予測性能と最近の最先端変圧器モデルとの比較を行った。
論文 参考訳(メタデータ) (2024-05-11T16:12:25Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - uGLAD: Sparse graph recovery by optimizing deep unrolled networks [11.48281545083889]
深層ネットワークを最適化してスパースグラフ復元を行う新しい手法を提案する。
我々のモデルであるuGLADは、最先端モデルGLADを教師なし設定に構築し、拡張します。
我々は, 遺伝子調節ネットワークから生成した合成ガウスデータ, 非ガウスデータを用いて, モデル解析を行い, 嫌気性消化の事例研究を行った。
論文 参考訳(メタデータ) (2022-05-23T20:20:27Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Tensor Networks for Probabilistic Sequence Modeling [7.846449972735859]
シーケンスデータの確率的モデリングには,一様行列積状態(u-MPS)モデルを用いる。
次に、訓練されたu-MPSに対して、様々な条件分布から効率的にサンプリングできる新しい生成アルゴリズムを提案する。
合成テキストデータと実テキストデータを用いたシーケンスモデリング実験は、U-MPSが様々なベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T17:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。