論文の概要: Perceiver IO: A General Architecture for Structured Inputs & Outputs
- arxiv url: http://arxiv.org/abs/2107.14795v2
- Date: Mon, 2 Aug 2021 17:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 10:46:31.376735
- Title: Perceiver IO: A General Architecture for Structured Inputs & Outputs
- Title(参考訳): perceiver io: 構造化入力と出力のための汎用アーキテクチャ
- Authors: Andrew Jaegle and Sebastian Borgeaud and Jean-Baptiste Alayrac and
Carl Doersch and Catalin Ionescu and David Ding and Skanda Koppula and Daniel
Zoran and Andrew Brock and Evan Shelhamer and Olivier H\'enaff and Matthew M.
Botvinick and Andrew Zisserman and Oriol Vinyals and Jo\~ao Carreira
- Abstract要約: Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟にクエリすることを学ぶ。
このモデルは、高度に構造化された出力空間を持つタスクに対して強い結果を得る。
Perceiver IOは、GLUE言語ベンチマークでTransformerベースのBERTベースラインにマッチする。
- 参考スコア(独自算出の注目度): 84.60656759687477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently-proposed Perceiver model obtains good results on several domains
(images, audio, multimodal, point clouds) while scaling linearly in compute and
memory with the input size. While the Perceiver supports many kinds of inputs,
it can only produce very simple outputs such as class scores. Perceiver IO
overcomes this limitation without sacrificing the original's appealing
properties by learning to flexibly query the model's latent space to produce
outputs of arbitrary size and semantics. Perceiver IO still decouples model
depth from data size and still scales linearly with data size, but now with
respect to both input and output sizes. The full Perceiver IO model achieves
strong results on tasks with highly structured output spaces, such as natural
language and visual understanding, StarCraft II, and multi-task and multi-modal
domains. As highlights, Perceiver IO matches a Transformer-based BERT baseline
on the GLUE language benchmark without the need for input tokenization and
achieves state-of-the-art performance on Sintel optical flow estimation.
- Abstract(参考訳): 最近提案されたPerceiverモデルは、いくつかの領域(画像、オーディオ、マルチモーダル、ポイントクラウド)で良い結果を得ると同時に、入力サイズで計算とメモリで線形にスケールする。
Perceiverは多くの種類の入力をサポートしているが、クラススコアのような非常に単純な出力しか生成できない。
Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟に問い合わせることを学ぶことで、オリジナルの魅力を犠牲にすることなく、この制限を克服する。
Perceiver IOは依然としてモデル深さをデータサイズから切り離し、データサイズと線形にスケールするが、現在では入力サイズと出力サイズの両方でスケールしている。
完全なperceiver ioモデルでは、自然言語や視覚理解、starcraft ii、マルチタスクやマルチモーダルドメインなど、高度に構造化された出力空間を持つタスクで強い結果が得られる。
強調されているように、Perceiver IOは入力トークン化を必要とせず、GLUE言語ベンチマーク上のTransformerベースのBERTベースラインと一致し、シンテル光フロー推定における最先端のパフォーマンスを達成する。
関連論文リスト
- Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Structural Pruning of Pre-trained Language Models via Neural Architecture Search [7.833790713816726]
事前学習された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された自然言語理解タスクの最先端である。
本稿では, 最適トレードオフ効率を有する微調整ネットワークのサブ部分を見つけるために, 構造解析のためのニューラルアーキテクチャ探索(NAS)について検討する。
論文 参考訳(メタデータ) (2024-05-03T17:34:57Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。