Fugu-MT 論文翻訳(概要): Perceiver IO: A General Architecture for Structured Inputs & Outputs

論文の概要: Perceiver IO: A General Architecture for Structured Inputs & Outputs

arxiv url: http://arxiv.org/abs/2107.14795v2
Date: Mon, 2 Aug 2021 17:18:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-03 10:46:31.376735
Title: Perceiver IO: A General Architecture for Structured Inputs & Outputs
Title（参考訳）: perceiver io: 構造化入力と出力のための汎用アーキテクチャ
Authors: Andrew Jaegle and Sebastian Borgeaud and Jean-Baptiste Alayrac and Carl Doersch and Catalin Ionescu and David Ding and Skanda Koppula and Daniel Zoran and Andrew Brock and Evan Shelhamer and Olivier H\'enaff and Matthew M. Botvinick and Andrew Zisserman and Oriol Vinyals and Jo\~ao Carreira
Abstract要約: Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟にクエリすることを学ぶ。このモデルは、高度に構造化された出力空間を持つタスクに対して強い結果を得る。 Perceiver IOは、GLUE言語ベンチマークでTransformerベースのBERTベースラインにマッチする。
参考スコア（独自算出の注目度）: 84.60656759687477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recently-proposed Perceiver model obtains good results on several domains (images, audio, multimodal, point clouds) while scaling linearly in compute and memory with the input size. While the Perceiver supports many kinds of inputs, it can only produce very simple outputs such as class scores. Perceiver IO overcomes this limitation without sacrificing the original's appealing properties by learning to flexibly query the model's latent space to produce outputs of arbitrary size and semantics. Perceiver IO still decouples model depth from data size and still scales linearly with data size, but now with respect to both input and output sizes. The full Perceiver IO model achieves strong results on tasks with highly structured output spaces, such as natural language and visual understanding, StarCraft II, and multi-task and multi-modal domains. As highlights, Perceiver IO matches a Transformer-based BERT baseline on the GLUE language benchmark without the need for input tokenization and achieves state-of-the-art performance on Sintel optical flow estimation.
Abstract（参考訳）: 最近提案されたPerceiverモデルは、いくつかの領域(画像、オーディオ、マルチモーダル、ポイントクラウド)で良い結果を得ると同時に、入力サイズで計算とメモリで線形にスケールする。 Perceiverは多くの種類の入力をサポートしているが、クラススコアのような非常に単純な出力しか生成できない。 Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟に問い合わせることを学ぶことで、オリジナルの魅力を犠牲にすることなく、この制限を克服する。 Perceiver IOは依然としてモデル深さをデータサイズから切り離し、データサイズと線形にスケールするが、現在では入力サイズと出力サイズの両方でスケールしている。完全なperceiver ioモデルでは、自然言語や視覚理解、starcraft ii、マルチタスクやマルチモーダルドメインなど、高度に構造化された出力空間を持つタスクで強い結果が得られる。強調されているように、Perceiver IOは入力トークン化を必要とせず、GLUE言語ベンチマーク上のTransformerベースのBERTベースラインと一致し、シンテル光フロー推定における最先端のパフォーマンスを達成する。

関連論文リスト

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling [17.277753030570263]
本稿では,コンテンツとコンテキストに依存したセグメンテーション戦略を自動的に学習する動的チャンキング機構を実現する手法を提案する。これを明示的な階層ネットワーク(H-Net)に組み込むことで、(単純に階層的な)トークン化-LM-detokenizationパイプラインを、完全にエンドツーエンドに学習した単一のモデルに置き換えることができる。階層を複数のステージに反復すると、複数の抽象化レベルをモデル化することで、そのパフォーマンスがさらに向上する。英語で事前訓練されたH-Netは、文字レベルの堅牢性を大幅に向上させ、意味のあるデータ依存のチャンキング戦略を、明確な監督なしに質的に学習する。
論文参考訳（メタデータ） (2025-07-10T17:39:37Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling [10.985444895887207]
本稿では,言語モデリング性能を向上させるために,入力語彙と出力語彙を分離するフレームワークであるOver-Tokenized Transformersを紹介する。入力語彙サイズとトレーニング損失の関係を明らかにすることで,より大きな入力語彙がモデル性能を継続的に向上することを示す。本研究は, スケーリング法則におけるトークン化の重要性を強調し, トークン化設計の実践的洞察を提供するものである。
論文参考訳（メタデータ） (2025-01-28T14:15:42Z)
Deriving Coding-Specific Sub-Models from LLMs using Resource-Efficient Pruning [4.762390044282733]
大規模言語モデル(LLM)は、様々な複雑なコード生成タスクにおいて、その例外的な性能を実証している。このような要求を緩和するために、モデルプルーニング技術は、パラメータが著しく少ないよりコンパクトなモデルを作成するために使用される。本研究では,非構造化プルーニングによる符号化特化サブモデルの効率的な導出について検討する。
論文参考訳（メタデータ） (2025-01-09T14:00:01Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文参考訳（メタデータ） (2024-10-03T08:27:54Z)
Structural Pruning of Pre-trained Language Models via Neural Architecture Search [7.833790713816726]
事前学習された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された自然言語理解タスクの最先端である。本稿では, 最適トレードオフ効率を有する微調整ネットワークのサブ部分を見つけるために, 構造解析のためのニューラルアーキテクチャ探索(NAS)について検討する。
論文参考訳（メタデータ） (2024-05-03T17:34:57Z)
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-05T14:13:50Z)
Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。 BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-02-19T13:38:15Z)
DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文参考訳（メタデータ） (2022-03-02T15:25:27Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
Direction is what you need: Improving Word Embedding Compression in Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-15T14:28:00Z)
Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文参考訳（メタデータ） (2021-03-04T18:20:50Z)
Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文参考訳（メタデータ） (2021-01-02T11:46:51Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。