論文の概要: Transformer-based Dual Relation Graph for Multi-label Image Recognition
- arxiv url: http://arxiv.org/abs/2110.04722v2
- Date: Tue, 12 Oct 2021 02:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 10:41:59.327466
- Title: Transformer-based Dual Relation Graph for Multi-label Image Recognition
- Title(参考訳): マルチラベル画像認識のためのトランスフォーマーベースデュアルリレーショナルグラフ
- Authors: Jiawei Zhao, Ke Yan, Yifan Zhao, Xiaowei Guo, Feiyue Huang, Jia Li
- Abstract要約: 本稿では,トランスフォーマーをベースとしたデュアルリレーショナル学習フレームワークを提案する。
相関の2つの側面、すなわち構造関係グラフと意味関係グラフについて検討する。
提案手法は,2つのポピュラーなマルチラベル認識ベンチマークにおいて,最先端性を実現する。
- 参考スコア(独自算出の注目度): 56.12543717723385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The simultaneous recognition of multiple objects in one image remains a
challenging task, spanning multiple events in the recognition field such as
various object scales, inconsistent appearances, and confused inter-class
relationships. Recent research efforts mainly resort to the statistic label
co-occurrences and linguistic word embedding to enhance the unclear semantics.
Different from these researches, in this paper, we propose a novel
Transformer-based Dual Relation learning framework, constructing complementary
relationships by exploring two aspects of correlation, i.e., structural
relation graph and semantic relation graph. The structural relation graph aims
to capture long-range correlations from object context, by developing a
cross-scale transformer-based architecture. The semantic graph dynamically
models the semantic meanings of image objects with explicit semantic-aware
constraints. In addition, we also incorporate the learnt structural
relationship into the semantic graph, constructing a joint relation graph for
robust representations. With the collaborative learning of these two effective
relation graphs, our approach achieves new state-of-the-art on two popular
multi-label recognition benchmarks, i.e., MS-COCO and VOC 2007 dataset.
- Abstract(参考訳): 1つの画像における複数のオブジェクトの同時認識は、様々なオブジェクトスケール、一貫性のない外観、混乱したクラス間の関係など、認識領域における複数のイベントにまたがる難しい課題である。
最近の研究は、不明瞭なセマンティクスを強化するために、統計ラベルの共起と言語単語の埋め込みを主に活用している。
本稿では,これらの研究と異なり,相関関係の2つの側面,すなわち構造関係グラフと意味関係グラフを探索して相補関係を構築する,新しいトランスフォーマベースの二重関係学習フレームワークを提案する。
構造関係グラフは、オブジェクトコンテキストから長距離相関を捉えることを目的として、クロススケールトランスフォーマーベースのアーキテクチャを開発する。
セマンティックグラフは、明示的なセマンティック・アウェア制約で画像オブジェクトの意味を動的にモデル化する。
さらに、学習した構造関係を意味グラフに組み込んで、堅牢な表現のための結合関係グラフを構築する。
これら2つの効果的な関係グラフの協調学習により,MS-COCOとVOC 2007データセットという2つの一般的なマルチラベル認識ベンチマーク上で,新たな最先端技術を実現する。
関連論文リスト
- Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Modelling Multi-relations for Convolutional-based Knowledge Graph
Embedding [0.2752817022620644]
このようなアプローチは、エンティティペア間のマルチリレーションのセマンティック接続を切断すると考えられる。
本稿では,畳み込み型マルチリレーショナル学習モデルであるConvMRを提案する。
ConvMRは、少ない頻度のエンティティを扱うのに効率的であることを示す。
論文 参考訳(メタデータ) (2022-10-21T03:43:06Z) - Unsupervised Multimodal Change Detection Based on Structural
Relationship Graph Representation Learning [40.631724905575034]
教師なしマルチモーダル変化検出は、時間に敏感な緊急アプリケーションにおいて重要な役割を果たす、実用的で困難なトピックである。
マルチモーダル画像における2種類のモダリティ非依存構造関係を利用する。
本稿では,2つの構造関係の類似性を測定するための構造関係グラフ表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T13:55:08Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z) - Tensor Graph Convolutional Networks for Multi-relational and Robust
Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。
提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文 参考訳(メタデータ) (2020-03-15T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。