論文の概要: Hierarchical Perceiver
- arxiv url: http://arxiv.org/abs/2202.10890v1
- Date: Tue, 22 Feb 2022 13:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 20:20:17.913822
- Title: Hierarchical Perceiver
- Title(参考訳): 階層的知覚
- Authors: Joao Carreira, Skanda Koppula, Daniel Zoran, Adria Recasens, Catalin
Ionescu, Olivier Henaff, Evan Shelhamer, Relja Arandjelovic, Matt Botvinick,
Oriol Vinyals, Karen Simonyan, Andrew Zisserman, Andrew Jaegle
- Abstract要約: Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理できる。
これらのモデルにある程度の局所性を導入することができ、その効率を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 99.34638383071193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General perception systems such as Perceivers can process arbitrary
modalities in any combination and are able to handle up to a few hundred
thousand inputs. They achieve this generality by exclusively using global
attention operations. This however hinders them from scaling up to the inputs
sizes required to process raw high-resolution images or video. In this paper,
we show that some degree of locality can be introduced back into these models,
greatly improving their efficiency while preserving their generality. To scale
them further, we introduce a self-supervised approach that enables learning
dense low-dimensional positional embeddings for very large signals. We call the
resulting model a Hierarchical Perceiver (HiP). HiP retains the ability to
process arbitrary modalities, but now at higher-resolution and without any
specialized preprocessing, improving over flat Perceivers in both efficiency
and accuracy on the ImageNet, Audioset and PASCAL VOC datasets.
- Abstract(参考訳): Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理でき、最大数十万の入力を処理できる。
それらは、グローバルアテンション操作のみを使用することで、この一般化を達成する。
しかしこれは、生の高解像度画像やビデオを処理するのに必要な入力サイズまでスケールアップすることを妨げる。
本稿では,これらのモデルにある程度の局所性を導入し,それらの一般性を保ちながら効率を大幅に向上することを示す。
さらに規模を拡大するために、非常に大きな信号に対して高密度な低次元位置埋め込みを学習できる自己教師型アプローチを導入する。
得られたモデルを階層的知覚(HiP)と呼ぶ。
hipは任意のモダリティを処理する能力を維持しているが、現在は解像度が高く、特別な前処理も必要とせず、imagenet、audioset、pascal vocデータセットの効率と正確性の両方においてフラットパーセサイバを改善している。
関連論文リスト
- LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-03T07:32:46Z) - LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - On the Effect of Image Resolution on Semantic Segmentation [27.115235051091663]
本研究では,高分解能セグメンテーションを直接生成できるモデルが,より複雑なシステムの性能と一致することを示す。
提案手法は,ボトムアップ情報伝搬手法を様々なスケールで活用する。
先進的なセマンティックセグメンテーションデータセットを用いて,本手法を厳格に検証した。
論文 参考訳(メタデータ) (2024-02-08T04:21:30Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。