論文の概要: Visual Parser: Representing Part-whole Hierarchies with Transformers
- arxiv url: http://arxiv.org/abs/2107.05790v1
- Date: Tue, 13 Jul 2021 00:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:44:15.425337
- Title: Visual Parser: Representing Part-whole Hierarchies with Transformers
- Title(参考訳): visual parser: トランスフォーマーで部分階層を表現する
- Authors: Shuyang Sun*, Xiaoyu Yue*, Song Bai, Philip Torr
- Abstract要約: 本稿では,変換器を用いた階層構造を明示的に構築するビジュアル-101(ViP)を提案する。
まず、注意機構を通じて、全体から部分ベクトルに情報をエンコードし、次に、部分ベクトル内のグローバル情報を全体表現に復号する。
実験により、ViPは3つの主要なタスクにおいて非常に競争力のある性能を達成できることが示された。
- 参考スコア(独自算出の注目度): 31.515385358176815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human vision is able to capture the part-whole hierarchical information from
the entire scene. This paper presents the Visual Parser (ViP) that explicitly
constructs such a hierarchy with transformers. ViP divides visual
representations into two levels, the part level and the whole level.
Information of each part represents a combination of several independent
vectors within the whole. To model the representations of the two levels, we
first encode the information from the whole into part vectors through an
attention mechanism, then decode the global information within the part vectors
back into the whole representation. By iteratively parsing the two levels with
the proposed encoder-decoder interaction, the model can gradually refine the
features on both levels. Experimental results demonstrate that ViP can achieve
very competitive performance on three major tasks e.g. classification,
detection and instance segmentation. In particular, it can surpass the previous
state-of-the-art CNN backbones by a large margin on object detection. The tiny
model of the ViP family with $7.2\times$ fewer parameters and $10.9\times$
fewer FLOPS can perform comparably with the largest model
ResNeXt-101-64$\times$4d of ResNe(X)t family. Visualization results also
demonstrate that the learnt parts are highly informative of the predicting
class, making ViP more explainable than previous fundamental architectures.
Code is available at https://github.com/kevin-ssy/ViP.
- Abstract(参考訳): 人間の視覚はシーン全体から階層的な情報を捉えることができる。
本稿では,変換器を用いた階層構造を明示的に構築するビジュアルパーザ(ViP)を提案する。
ViPは視覚表現を、部分レベルと全体レベルという2つのレベルに分割する。
各部分の情報は、全体内の複数の独立したベクトルの組み合わせを表す。
2つのレベルの表現をモデル化するために、まず、注意機構を通じて、全体から部分ベクトルに情報をエンコードし、次に、部分ベクトル内のグローバル情報を全体表現に復号する。
提案するエンコーダとデコーダの相互作用で2つのレベルを反復的に解析することで、モデルは徐々に両方のレベルの機能を洗練することができる。
実験の結果、ViPは3つの主要なタスクにおいて非常に競争力のある性能を達成できることが示された。
分類、検出、インスタンスのセグメンテーション。
特に、これまでの最先端CNNバックボーンを、オブジェクト検出において大きなマージンで超えることができる。
7.2\times$少ないパラメータと10.9\times$少ないFLOPSの小さなモデルでは、最大のモデルであるResNeXt-101-64$\times$4dのResNe(X)tファミリと互換性がある。
可視化の結果は、学習した部分が予測クラスに非常に有意義であることを示し、ViPが従来の基本アーキテクチャよりも説明しやすいことを示している。
コードはhttps://github.com/kevin-ssy/ViP.comで入手できる。
関連論文リスト
- Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Vision GNN: An Image is Worth Graph of Nodes [49.3335689216822]
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
論文 参考訳(メタデータ) (2022-06-01T07:01:04Z) - Video Polyp Segmentation: A Deep Learning Perspective [97.70996418522748]
本稿では,第1回総合ビデオポリプセグメンテーション(VPS)研究について紹介する。
まず、有名なSUNデータセットから158,690フレームを含む、SUN-SEGという高品質なフレーム単位のVPSデータセットを紹介します。
また,グローバルエンコーダ,ローカルエンコーダ,正規化自己保持ブロックからなる,シンプルだが効率的なベースラインを設計する。
論文 参考訳(メタデータ) (2022-03-27T12:40:10Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic
Segmentation [31.078913193966585]
ViP-DeepLabは、ビジョンの長期的かつ挑戦的な逆投影問題に取り組む統一モデルです。
ViP-DeepLabは、単眼深度推定とビデオパノプティクスのセグメンテーションを共同で行うことでアプローチする。
個々のサブタスクでは、ViP-DeepLabは最先端の結果を達成し、Cityscapes-VPSで5.1%のVPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位を上回ります。
論文 参考訳(メタデータ) (2020-12-09T19:00:35Z) - Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-06-20T10:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。