Fugu-MT 論文翻訳(概要): Hierarchical Perceiver

論文の概要: Hierarchical Perceiver

arxiv url: http://arxiv.org/abs/2202.10890v1
Date: Tue, 22 Feb 2022 13:39:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-23 20:20:17.913822
Title: Hierarchical Perceiver
Title（参考訳）: 階層的知覚
Authors: Joao Carreira, Skanda Koppula, Daniel Zoran, Adria Recasens, Catalin Ionescu, Olivier Henaff, Evan Shelhamer, Relja Arandjelovic, Matt Botvinick, Oriol Vinyals, Karen Simonyan, Andrew Zisserman, Andrew Jaegle
Abstract要約: Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理できる。これらのモデルにある程度の局所性を導入することができ、その効率を大幅に改善できることを示す。
参考スコア（独自算出の注目度）: 99.34638383071193
License: http://creativecommons.org/licenses/by/4.0/
Abstract: General perception systems such as Perceivers can process arbitrary modalities in any combination and are able to handle up to a few hundred thousand inputs. They achieve this generality by exclusively using global attention operations. This however hinders them from scaling up to the inputs sizes required to process raw high-resolution images or video. In this paper, we show that some degree of locality can be introduced back into these models, greatly improving their efficiency while preserving their generality. To scale them further, we introduce a self-supervised approach that enables learning dense low-dimensional positional embeddings for very large signals. We call the resulting model a Hierarchical Perceiver (HiP). HiP retains the ability to process arbitrary modalities, but now at higher-resolution and without any specialized preprocessing, improving over flat Perceivers in both efficiency and accuracy on the ImageNet, Audioset and PASCAL VOC datasets.
Abstract（参考訳）: Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理でき、最大数十万の入力を処理できる。それらは、グローバルアテンション操作のみを使用することで、この一般化を達成する。しかしこれは、生の高解像度画像やビデオを処理するのに必要な入力サイズまでスケールアップすることを妨げる。本稿では,これらのモデルにある程度の局所性を導入し,それらの一般性を保ちながら効率を大幅に向上することを示す。さらに規模を拡大するために、非常に大きな信号に対して高密度な低次元位置埋め込みを学習できる自己教師型アプローチを導入する。得られたモデルを階層的知覚(HiP)と呼ぶ。 hipは任意のモダリティを処理する能力を維持しているが、現在は解像度が高く、特別な前処理も必要とせず、imagenet、audioset、pascal vocデータセットの効率と正確性の両方においてフラットパーセサイバを改善している。

関連論文リスト

HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文参考訳（メタデータ） (2025-07-17T08:09:31Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
Generalization Capability for Imitation Learning [1.30536490219656]
模倣学習は、専門家によるデモンストレーションから学ぶことで、多芸なスキルを持つロボットを装備するという約束を果たす。しかしながら、有限データセットで訓練されたポリシーは、トレーニング分布を超えた一般化に苦慮することが多い。本稿では、情報理論とデータ分散特性の両方を基礎とした模倣学習の一般化能力に関する統一的な視点を示す。
論文参考訳（メタデータ） (2025-04-25T17:59:59Z)
Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。 Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。 SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文参考訳（メタデータ） (2025-01-24T06:42:06Z)
Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images [20.140898354987353]
本稿では,低解像度入力を効果的に処理するための新しいアテンション機構,CMSAを提案する。このアーキテクチャは、異なるスケールにわたる機能の効果的なハンドリングを可能にし、人間のポーズ推定のようなタスクを実行するモデルの能力を高める。実験の結果,提案手法はパラメータが少なく,既存の最先端手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-12-03T06:23:19Z)
Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。 Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。 7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文参考訳（メタデータ） (2024-11-27T18:30:08Z)
LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文参考訳（メタデータ） (2024-10-14T08:06:21Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文参考訳（メタデータ） (2024-09-03T07:32:46Z)
LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文参考訳（メタデータ） (2024-04-04T17:43:06Z)
On the Effect of Image Resolution on Semantic Segmentation [27.115235051091663]
本研究では,高分解能セグメンテーションを直接生成できるモデルが,より複雑なシステムの性能と一致することを示す。提案手法は,ボトムアップ情報伝搬手法を様々なスケールで活用する。先進的なセマンティックセグメンテーションデータセットを用いて,本手法を厳格に検証した。
論文参考訳（メタデータ） (2024-02-08T04:21:30Z)
Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文参考訳（メタデータ） (2023-11-30T05:15:35Z)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。 LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文参考訳（メタデータ） (2023-10-04T17:34:00Z)
Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文参考訳（メタデータ） (2021-03-04T18:20:50Z)
Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-08T17:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。