論文の概要: Visual Composite Set Detection Using Part-and-Sum Transformers
- arxiv url: http://arxiv.org/abs/2105.02170v1
- Date: Wed, 5 May 2021 16:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:46:16.062388
- Title: Visual Composite Set Detection Using Part-and-Sum Transformers
- Title(参考訳): パーシャル・アンド・サム変換器を用いた視覚複合集合検出
- Authors: Qi Dong, Zhuowen Tu, Haofu Liao, Yuting Zhang, Vijay Mahadevan,
Stefano Soatto
- Abstract要約: 本稿では,エンドツーエンドのコンポジットセット検出を行うために,PST(Part-and-Sum Detection Transformer)という新しい手法を提案する。
PSTは、カスタムデザインの2段階モデルの結果とほぼ一致しながら、シングルステージモデル間で最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 74.26037922682355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision applications such as visual relationship detection and
human-object interaction can be formulated as a composite (structured) set
detection problem in which both the parts (subject, object, and predicate) and
the sum (triplet as a whole) are to be detected in a hierarchical fashion. In
this paper, we present a new approach, denoted Part-and-Sum detection
Transformer (PST), to perform end-to-end composite set detection. Different
from existing Transformers in which queries are at a single level, we
simultaneously model the joint part and sum hypotheses/interactions with
composite queries and attention modules. We explicitly incorporate sum queries
to enable better modeling of the part-and-sum relations that are absent in the
standard Transformers. Our approach also uses novel tensor-based part queries
and vector-based sum queries, and models their joint interaction. We report
experiments on two vision tasks, visual relationship detection, and
human-object interaction, and demonstrate that PST achieves state-of-the-art
results among single-stage models, while nearly matching the results of
custom-designed two-stage models.
- Abstract(参考訳): 視覚的関係検出や人-物体相互作用などのコンピュータビジョンアプリケーションは、部分(対象、対象、述語)と和(全体)の両方を階層的に検出する合成(構造化)セット検出問題として定式化することができる。
本稿では,エンド・ツー・エンド複合集合検出を行うための新しい手法であるpst(part-and-sum detection transformer)を提案する。
クエリが単一レベルにある既存のTransformerとは異なり、結合部を同時にモデル化し、複合クエリとアテンションモジュールで仮説/相互作用を和算する。
標準トランスフォーマーにないpart-and-sum関係のモデリングを改善するために、sumクエリを明示的に組み込んでいます。
また,新しいテンソル型部分問合せとベクトル型和問合せを用い,それらの相互作用をモデル化する。
視覚関連検出と人間と物体の相互作用という2つの視覚課題の実験を報告し,pstが単段モデルにおいて最先端の成果を得られることを実証した。
関連論文リスト
- Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。
以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。
本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2020-10-08T10:16:52Z) - Attention-based Joint Detection of Object and Semantic Part [4.389917490809522]
我々のモデルは2つのFaster-RCNNモデルに基づいて作成され、それらの特徴を共有して両方の表現を拡張します。
PASCAL-Part 2010データセットの実験では、関節検出は物体検出と部分検出の両方を同時に改善できることが示された。
論文 参考訳(メタデータ) (2020-07-05T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。