論文の概要: Graph Reasoning Transformer for Image Parsing
- arxiv url: http://arxiv.org/abs/2209.09545v1
- Date: Tue, 20 Sep 2022 08:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:35:52.287073
- Title: Graph Reasoning Transformer for Image Parsing
- Title(参考訳): 画像解析のためのグラフ推論変換器
- Authors: Dong Zhang, Jinhui Tang, and Kwang-Ting Cheng
- Abstract要約: 本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 67.76633142645284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capturing the long-range dependencies has empirically proven to be effective
on a wide range of computer vision tasks. The progressive advances on this
topic have been made through the employment of the transformer framework with
the help of the multi-head attention mechanism. However, the attention-based
image patch interaction potentially suffers from problems of redundant
interactions of intra-class patches and unoriented interactions of inter-class
patches. In this paper, we propose a novel Graph Reasoning Transformer (GReaT)
for image parsing to enable image patches to interact following a relation
reasoning pattern. Specifically, the linearly embedded image patches are first
projected into the graph space, where each node represents the implicit visual
center for a cluster of image patches and each edge reflects the relation
weight between two adjacent nodes. After that, global relation reasoning is
performed on this graph accordingly. Finally, all nodes including the relation
information are mapped back into the original space for subsequent processes.
Compared to the conventional transformer, GReaT has higher interaction
efficiency and a more purposeful interaction pattern. Experiments are carried
out on the challenging Cityscapes and ADE20K datasets. Results show that GReaT
achieves consistent performance gains with slight computational overheads on
the state-of-the-art transformer baselines.
- Abstract(参考訳): 長距離依存関係のキャプチャは、幅広いコンピュータビジョンタスクで有効であることが実証されている。
このトピックの進歩的な進歩は、マルチヘッドアテンション機構の助けを借りてトランスフォーマーフレームワークの雇用を通じて行われてきた。
しかしながら、注意に基づくイメージパッチの相互作用は、クラス内パッチの冗長な相互作用とクラス間パッチの非指向的な相互作用の問題に直面する可能性がある。
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
具体的には、線形に埋め込まれた画像パッチをまずグラフ空間に投影し、各ノードは画像パッチのクラスタの暗黙の視覚的中心を表し、各エッジは隣接する2つのノード間の関係重みを反映する。
その後、このグラフ上でグローバルな関係推論を行う。
最後に、関係情報を含む全てのノードは、後続のプロセスのために元の空間にマッピングされる。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
挑戦的なCityscapesとADE20Kデータセットで実験が行われている。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現することがわかった。
関連論文リスト
- CVTGAD: Simplified Transformer with Cross-View Attention for Unsupervised Graph-level Anomaly Detection [11.282629706121039]
教師なしグラフレベルの異常検出のためのクロスビューアテンション付きトランスフォーマーを提案する。
受信フィールドを拡大するために,グラフ内およびグラフ間の両方の観点からノード/グラフ間の関係を利用する,簡易なトランスフォーマベースモジュールを構築した。
我々は、異なるビュー間のビュー共起を直接利用し、ノードレベルとグラフレベルでのビュー間ギャップを埋めるために、クロスビューアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-05-03T03:31:00Z) - Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Gramformer: Learning Crowd Counting via Graph-Modulated Transformer [68.26599222077466]
Gramformerはグラフ変調変換器で、それぞれ注意点と入力ノードの特徴を調整してネットワークを強化する。
ノードの集中位置や重要性を発見するために,特徴に基づく符号化を提案する。
提案手法の競争性を検証した4つの挑戦的群集カウントデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-01-08T13:01:54Z) - Graph Context Transformation Learning for Progressive Correspondence
Pruning [26.400567961735234]
本稿では,プログレッシブ対応プルーニングのためのコンセンサスガイダンスを行うために,文脈情報を強化するグラフコンテキスト変換ネットワーク(GCT-Net)を提案する。
具体的には、まずグラフネットワークを生成し、次にマルチブランチグラフコンテキストに変換するグラフコンテキストエンハンス変換器を設計する。
そこで本稿では,グラフ・コンテキスト・ガイダンス・トランスフォーマ(Graph Context Guidance Transformer)を提案する。
論文 参考訳(メタデータ) (2023-12-26T09:43:30Z) - Graph-Segmenter: Graph Transformer with Boundary-aware Attention for
Semantic Segmentation [14.716537714651576]
グラフ変換器と境界認識アテンションモジュールを含むグラフセグメンタを提案する。
提案するネットワークは,境界認識型グラフ変換器であり,最先端セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:30:19Z) - Graph Transformer GANs for Graph-Constrained House Generation [223.739067413952]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
GTGANは、グラフ制約のある住宅生成タスクにおいて、エンドツーエンドで効率的なグラフノード関係を学習する。
論文 参考訳(メタデータ) (2023-03-14T20:35:45Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Relation Transformer Network [25.141472361426818]
本稿では,シーングラフ生成と関係予測のためのトランスフォーメーションを提案する。
我々はトランスのエンコーダ・デコーダアーキテクチャを利用して,ノードとエッジのリッチな機能埋め込みを行う。
我々の関係予測モジュールは学習ノードとエッジ埋め込みから有向関係を分類する。
論文 参考訳(メタデータ) (2020-04-13T20:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。