論文の概要: General-purpose, long-context autoregressive modeling with Perceiver AR
- arxiv url: http://arxiv.org/abs/2202.07765v1
- Date: Tue, 15 Feb 2022 22:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 14:33:48.002634
- Title: General-purpose, long-context autoregressive modeling with Perceiver AR
- Title(参考訳): Perceiver ARを用いた汎用長文自動回帰モデリング
- Authors: Curtis Hawthorne, Andrew Jaegle, C\u{a}t\u{a}lina Cangea, Sebastian
Borgeaud, Charlie Nash, Mateusz Malinowski, Sander Dieleman, Oriol Vinyals,
Matthew Botvinick, Ian Simon, Hannah Sheahan, Neil Zeghidour, Jean-Baptiste
Alayrac, Jo\~ao Carreira, Jesse Engel
- Abstract要約: 我々は、長距離入力を潜伏者にマップするクロスアテンションを用いた自己回帰型モダリティ非依存型アーキテクチャPerceiver ARを開発した。
Perceiver ARは10万以上のトークンに直接対応可能で、実用的な長期コンテキスト密度推定を可能にする。
また,64 x 64 イメージネット画像や PG-19 の書籍など,時系列ベンチマークの最先端性も得られている。
- 参考スコア(独自算出の注目度): 58.976153199352254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world data is high-dimensional: a book, image, or musical performance
can easily contain hundreds of thousands of elements even after compression.
However, the most commonly used autoregressive models, Transformers, are
prohibitively expensive to scale to the number of inputs and layers needed to
capture this long-range structure. We develop Perceiver AR, an autoregressive,
modality-agnostic architecture which uses cross-attention to map long-range
inputs to a small number of latents while also maintaining end-to-end causal
masking. Perceiver AR can directly attend to over a hundred thousand tokens,
enabling practical long-context density estimation without the need for
hand-crafted sparsity patterns or memory mechanisms. When trained on images or
music, Perceiver AR generates outputs with clear long-term coherence and
structure. Our architecture also obtains state-of-the-art likelihood on
long-sequence benchmarks, including 64 x 64 ImageNet images and PG-19 books.
- Abstract(参考訳): 実世界のデータは高次元で、本、画像、音楽の演奏は圧縮後も数十万の要素を含むことができる。
しかし、最も一般的に使用される自己回帰モデルであるトランスフォーマーは、この長距離構造を捉えるのに必要な入力と層の数にスケールするのに非常に高価である。
我々は,自己回帰型モダリティ非依存アーキテクチャであるperceiver arを開発した。クロスアテンションを用いて,少数の潜在子に長距離入力をマッピングすると同時に,エンドツーエンドの因果的マスキングも維持する。
Perceiver ARは10万以上のトークンに直接対応可能で、手作りのスパーシティパターンやメモリ機構を必要とせずに、実用的な長期コンテキスト密度推定を可能にする。
画像や音楽のトレーニングを行うと、Perceiver ARは長期的なコヒーレンスと構造を明確にした出力を生成する。
また,64 x 64 イメージネット画像や PG-19 書籍など,時系列ベンチマークの最先端性も得られる。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling [15.013242103936625]
我々は,SAR(Set AutoRegressive Modeling)と呼ばれる,自動回帰(AR)画像生成のための新しいパラダイムを導入する。
SARは従来のARを次のセット設定、すなわち複数のトークンを含む任意の集合に分割するように一般化する。
シーケンス順序と出力間隔が性能に与える影響を解析し,SARの特性について検討する。
論文 参考訳(メタデータ) (2024-10-14T13:49:06Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - LaMAR: Benchmarking Localization and Mapping for Augmented Reality [80.23361950062302]
異種ARデバイスでキャプチャされたリアルな軌跡とセンサストリームを共登録する,包括的キャプチャとGTパイプラインを備えた新しいベンチマークであるLaMARを紹介する。
私たちは、ヘッドマウントとハンドヘルドARデバイスで記録された多様な大規模シーンのベンチマークデータセットを公開します。
論文 参考訳(メタデータ) (2022-10-19T17:58:17Z) - Lightweight Long-Range Generative Adversarial Networks [58.16484259508973]
本稿では、画像生成プロセスにおける長距離依存性を効果的にキャプチャできる、新しい軽量な生成対向ネットワークを提案する。
提案した長距離モジュールは、トレーニングを安定させる正規化として機能し、画素間の負の関係を強調することができる。
我々の新しいロングレンジモジュールは、いくつかの追加パラメータしか導入せず、既存のモデルに簡単に挿入して、ロングレンジの依存関係をキャプチャする。
論文 参考訳(メタデータ) (2022-09-08T13:05:01Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Residual Attention Net for Superior Cross-Domain Time Sequence Modeling [0.0]
本稿では新しいアーキテクチャのコンセプト実証として機能し、RANはモデルにシーケンスパターンのより高レベルな理解を提供することを目的としている。
その結果,35の最先端結果が得られたが,10の結果が現在の最先端結果と一致し,さらなるモデル微調整は行われなかった。
論文 参考訳(メタデータ) (2020-01-13T06:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。