論文の概要: Visual Dependency Transformers: Dependency Tree Emerges from Reversed
Attention
- arxiv url: http://arxiv.org/abs/2304.03282v1
- Date: Thu, 6 Apr 2023 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 12:56:40.855381
- Title: Visual Dependency Transformers: Dependency Tree Emerges from Reversed
Attention
- Title(参考訳): Visual Dependency Transformer: 依存性ツリーは逆の注意から生まれる
- Authors: Mingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping
Luo, Joshua B. Tenenbaum, Chuang Gan
- Abstract要約: ラベルなしで視覚的依存関係を誘導できる視覚依存変換器(DependencyViT)を提案する。
我々は、子トークンが親トークンに出席し、情報を送信するように訓練された依存グラフとしてこれを定式化する。
DependencyViTは、ImageNet上の自己と弱い教師付き事前トレーニングパラダイムの両方でうまく機能する。
- 参考スコア(独自算出の注目度): 106.67741967871969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans possess a versatile mechanism for extracting structured
representations of our visual world. When looking at an image, we can decompose
the scene into entities and their parts as well as obtain the dependencies
between them. To mimic such capability, we propose Visual Dependency
Transformers (DependencyViT) that can induce visual dependencies without any
labels. We achieve that with a novel neural operator called \emph{reversed
attention} that can naturally capture long-range visual dependencies between
image patches. Specifically, we formulate it as a dependency graph where a
child token in reversed attention is trained to attend to its parent tokens and
send information following a normalized probability distribution rather than
gathering information in conventional self-attention. With such a design,
hierarchies naturally emerge from reversed attention layers, and a dependency
tree is progressively induced from leaf nodes to the root node unsupervisedly.
DependencyViT offers several appealing benefits. (i) Entities and their parts
in an image are represented by different subtrees, enabling part partitioning
from dependencies; (ii) Dynamic visual pooling is made possible. The leaf nodes
which rarely send messages can be pruned without hindering the model
performance, based on which we propose the lightweight DependencyViT-Lite to
reduce the computational and memory footprints; (iii) DependencyViT works well
on both self- and weakly-supervised pretraining paradigms on ImageNet, and
demonstrates its effectiveness on 8 datasets and 5 tasks, such as unsupervised
part and saliency segmentation, recognition, and detection.
- Abstract(参考訳): 人間は視覚世界の構造化された表現を抽出するための多用途なメカニズムを持っている。
画像を見ると、シーンをエンティティとその部分に分解し、それらの間の依存関係を取得することができます。
このような機能を模倣するために、ラベルなしで視覚的依存関係を誘導できるVisual Dependency Transformer (DependencyViT)を提案する。
我々は、画像パッチ間の長距離視覚依存性を自然に捉えることができる新しいニューラル演算子 \emph{reversed attention} でそれを実現する。
具体的には、従来の自己注意で情報を集めるのではなく、親トークンへの参加を訓練し、正規化確率分布に従って情報を送信する依存性グラフとして定式化する。
このような設計により、階層構造は逆に注目層から自然に出現し、依存木は葉ノードから根ノードへ教師なしで徐々に誘導される。
DependencyViTはいくつかの魅力的な利点を提供する。
i) 画像内のエンティティとその部分は、異なるサブツリーで表現され、依存関係から部品を分割することができる。
(ii)動的視覚プーリングが可能となる。
メッセージを送信することがほとんどないリーフノードは、モデル性能を損なうことなく、刈り取ることができ、計算量とメモリフットプリントを減らすために軽量のdependencyvit-liteを提案します。
(iii)DependencyViTは、ImageNet上の自己および弱教師付き事前トレーニングパラダイムの両方でうまく機能し、8つのデータセットと5つのタスク、例えば教師なし部分や従属部分のセグメンテーション、認識、検出に効果を示す。
関連論文リスト
- VSFormer: Visual-Spatial Fusion Transformer for Correspondence Pruning [22.0082111649259]
対応プルーニング(英: Cor correspondence pruning)は、初期セットの仮定対応から正しい一致(不整合)を見つけることを目的としている。
Inlier を同定し,カメラのポーズを正確に復元する Visual-Spatial Fusion Transformer (VSFormer) を提案する。
論文 参考訳(メタデータ) (2023-12-14T09:50:09Z) - Pose-Aided Video-based Person Re-Identification via Recurrent Graph
Convolutional Network [41.861537712563816]
本稿では,映像検索機能以外の識別的ポーズ特徴を学習することを提案する。
ポーズの特徴を学習するために、私たちはまず、オフザシェルフポーズ検知器を通して各フレーム内の歩行者のポーズを検出する。
次に、繰り返しグラフ畳み込みネットワーク(RGCN)を用いて、時間的ポーズグラフのノード埋め込みを学習する。
論文 参考訳(メタデータ) (2022-09-23T13:20:33Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。