論文の概要: Hierarchical Perceiver
- arxiv url: http://arxiv.org/abs/2202.10890v1
- Date: Tue, 22 Feb 2022 13:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 20:20:17.913822
- Title: Hierarchical Perceiver
- Title(参考訳): 階層的知覚
- Authors: Joao Carreira, Skanda Koppula, Daniel Zoran, Adria Recasens, Catalin
Ionescu, Olivier Henaff, Evan Shelhamer, Relja Arandjelovic, Matt Botvinick,
Oriol Vinyals, Karen Simonyan, Andrew Zisserman, Andrew Jaegle
- Abstract要約: Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理できる。
これらのモデルにある程度の局所性を導入することができ、その効率を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 99.34638383071193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General perception systems such as Perceivers can process arbitrary
modalities in any combination and are able to handle up to a few hundred
thousand inputs. They achieve this generality by exclusively using global
attention operations. This however hinders them from scaling up to the inputs
sizes required to process raw high-resolution images or video. In this paper,
we show that some degree of locality can be introduced back into these models,
greatly improving their efficiency while preserving their generality. To scale
them further, we introduce a self-supervised approach that enables learning
dense low-dimensional positional embeddings for very large signals. We call the
resulting model a Hierarchical Perceiver (HiP). HiP retains the ability to
process arbitrary modalities, but now at higher-resolution and without any
specialized preprocessing, improving over flat Perceivers in both efficiency
and accuracy on the ImageNet, Audioset and PASCAL VOC datasets.
- Abstract(参考訳): Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理でき、最大数十万の入力を処理できる。
それらは、グローバルアテンション操作のみを使用することで、この一般化を達成する。
しかしこれは、生の高解像度画像やビデオを処理するのに必要な入力サイズまでスケールアップすることを妨げる。
本稿では,これらのモデルにある程度の局所性を導入し,それらの一般性を保ちながら効率を大幅に向上することを示す。
さらに規模を拡大するために、非常に大きな信号に対して高密度な低次元位置埋め込みを学習できる自己教師型アプローチを導入する。
得られたモデルを階層的知覚(HiP)と呼ぶ。
hipは任意のモダリティを処理する能力を維持しているが、現在は解像度が高く、特別な前処理も必要とせず、imagenet、audioset、pascal vocデータセットの効率と正確性の両方においてフラットパーセサイバを改善している。
関連論文リスト
- On the Effect of Image Resolution on Semantic Segmentation [27.115235051091663]
本研究では,高分解能セグメンテーションを直接生成できるモデルが,より複雑なシステムの性能と一致することを示す。
提案手法は,ボトムアップ情報伝搬手法を様々なスケールで活用する。
先進的なセマンティックセグメンテーションデータセットを用いて,本手法を厳格に検証した。
論文 参考訳(メタデータ) (2024-02-08T04:21:30Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Using Explanations to Guide Models [68.64377323216817]
モデルガイダンスは、時にはモデルパフォーマンスも改善できることを示す。
本研究では,物体の特徴に着目したモデルの有効性を示す新しいエネルギー損失を提案する。
また、バウンディングボックスアノテーションのわずかな部分でも、これらのゲインが達成可能であることも示しています。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - A Simple Plugin for Transforming Images to Arbitrary Scales [47.36233857830832]
我々は、既存の超解像モデルに挿入できる汎用プラグインを開発し、Arbitrary Resolution Image Scalingに向けた能力を便利に増強する。
得られたモデルは、固定スケールファクタ上での本来の性能を維持できるだけでなく、目に見えないスケールに拡張可能であることを示し、標準ベンチマーク上で既存の任意のスケールの超解像モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-07T09:24:38Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。