論文の概要: Perceiver: General Perception with Iterative Attention
- arxiv url: http://arxiv.org/abs/2103.03206v1
- Date: Thu, 4 Mar 2021 18:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 15:10:03.421149
- Title: Perceiver: General Perception with Iterative Attention
- Title(参考訳): Perceiver: 反復的注意を伴った一般認識
- Authors: Andrew Jaegle and Felix Gimeno and Andrew Brock and Andrew Zisserman
and Oriol Vinyals and Joao Carreira
- Abstract要約: 我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
- 参考スコア(独自算出の注目度): 85.65927856589613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biological systems understand the world by simultaneously processing
high-dimensional inputs from modalities as diverse as vision, audition, touch,
proprioception, etc. The perception models used in deep learning on the other
hand are designed for individual modalities, often relying on domain-specific
assumptions such as the local grid structures exploited by virtually all
existing vision models. These priors introduce helpful inductive biases, but
also lock models to individual modalities. In this paper we introduce the
Perceiver - a model that builds upon Transformers and hence makes few
architectural assumptions about the relationship between its inputs, but that
also scales to hundreds of thousands of inputs, like ConvNets. The model
leverages an asymmetric attention mechanism to iteratively distill inputs into
a tight latent bottleneck, allowing it to scale to handle very large inputs. We
show that this architecture performs competitively or beyond strong,
specialized models on classification tasks across various modalities: images,
point clouds, audio, video and video+audio. The Perceiver obtains performance
comparable to ResNet-50 on ImageNet without convolutions and by directly
attending to 50,000 pixels. It also surpasses state-of-the-art results for all
modalities in AudioSet.
- Abstract(参考訳): 生体システムは視覚、オーディション、タッチ、プロピオセプションなど様々な形態の高次元入力を同時に処理することで世界を理解する。
一方、ディープラーニングで使用される知覚モデルは個々のモダリティのために設計されており、多くの場合、ほとんどすべての既存の視覚モデルによって活用される局所格子構造のようなドメイン固有の仮定に依存している。
これらの優先事項は、有益な誘導バイアスを導入するだけでなく、個々のモダリティにモデルをロックする。
本稿では,トランスフォーマーを基盤とするモデルであるperceiverについて紹介する。このモデルでは,入力間の関係についてアーキテクチャ上の仮定をほとんど行わないが,convnetsのような数十万の入力にもスケールする。
このモデルは非対称な注意機構を利用して、反復的に入力をタイトな潜在ボトルネックに蒸留し、非常に大きな入力を処理するためにスケールすることができる。
このアーキテクチャは,画像,ポイントクラウド,オーディオ,ビデオ,ビデオ+オーディオなど,さまざまなモードの分類タスクに対して,競争的に,あるいはそれ以上に,強力な特殊なモデルを実行していることを示す。
イメージネット上のresnet-50に匹敵する性能は畳み込みなく、5万画素まで直接参加することで得られる。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
関連論文リスト
- Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - SUM: Saliency Unification through Mamba for Visual Attention Modeling [5.274826387442202]
視覚アテンションモデリングは、マーケティング、マルチメディア、ロボット工学といったアプリケーションにおいて重要な役割を果たす。
従来のサリエンシ予測モデル、特にCNNやTransformersをベースとしたモデルは、大規模な注釈付きデータセットを活用することで、顕著な成功を収めている。
本稿では,Mamba と U-Net を併用した,効率の良い長距離依存性モデリング手法であるMamba (SUM) によるSaliency Unificationを提案する。
論文 参考訳(メタデータ) (2024-06-25T05:54:07Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Multimodal Distillation for Egocentric Action Recognition [41.821485757189656]
エゴセントリックなビデオ理解は、手動物体の相互作用をモデル化する。
CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。
しかし、それらの性能は補足的手がかりを提供する追加の入力モダリティを利用することによりさらに向上する。
この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2023-07-14T17:07:32Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。