論文の概要: Collaborative Transformers for Grounded Situation Recognition
- arxiv url: http://arxiv.org/abs/2203.16518v1
- Date: Wed, 30 Mar 2022 17:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 13:43:40.703948
- Title: Collaborative Transformers for Grounded Situation Recognition
- Title(参考訳): 接地状況認識のための協調変圧器
- Authors: Junhyeong Cho, Youngseok Yoon, Suha Kwak
- Abstract要約: グラウンドドシチュエーション認識は、メインアクティビティ、アクティビティ内で特定の役割を演じるエンティティ、与えられたイメージ内のエンティティのバウンディングボックスグラウンドを予測するタスクである。
本稿では,アクティビティ分類とエンティティ推定の2つのプロセスが対話的かつ相補的となる,新しいアプローチを提案する。
本稿では,2つのモジュールからなるコラボレーティブなGlance-Gaze TransFormer (CoFormer) と,アクティビティ分類のためのGlance Transformer,エンティティ推定のためのGaze Transformerを提案する。
- 参考スコア(独自算出の注目度): 15.19014274568525
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grounded situation recognition is the task of predicting the main activity,
entities playing certain roles within the activity, and bounding-box groundings
of the entities in the given image. To effectively deal with this challenging
task, we introduce a novel approach where the two processes for activity
classification and entity estimation are interactive and complementary. To
implement this idea, we propose Collaborative Glance-Gaze TransFormer
(CoFormer) that consists of two modules: Glance transformer for activity
classification and Gaze transformer for entity estimation. Glance transformer
predicts the main activity with the help of Gaze transformer that analyzes
entities and their relations, while Gaze transformer estimates the grounded
entities by focusing only on the entities relevant to the activity predicted by
Glance transformer. Our CoFormer achieves the state of the art in all
evaluation metrics on the SWiG dataset. Training code and model weights are
available at https://github.com/jhcho99/CoFormer.
- Abstract(参考訳): グラウンドドシチュエーション認識は、メインアクティビティ、アクティビティ内で特定の役割を演じるエンティティ、与えられたイメージ内のエンティティのバウンディングボックスグラウンドを予測するタスクである。
この課題に効果的に対処するために,アクティビティ分類とエンティティ推定の2つのプロセスが対話的で相補的なアプローチを導入する。
そこで本研究では,活動分類のためのeyes-gaze transformer (coformer) と,エンティティ推定のための gaze transformer という2つのモジュールからなる協調型eyes-gaze transformer (coformer) を提案する。
視線トランスフォーマは、物体とその関係を分析する視線トランスフォーマの助けを借りて主活動を予測する一方、視線トランスフォーマは、視線トランスフォーマによって予測される活動に関連するエンティティのみに焦点を当てて、接地した実体を推定する。
我々のCoFormerは、SWiGデータセット上のすべての評価指標において、その技術の状態を達成する。
トレーニングコードとモデルウェイトはhttps://github.com/jhcho99/CoFormer.comで入手できる。
関連論文リスト
- Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Temporal Action Proposal Generation with Transformers [25.66256889923748]
本稿では,オリジナルトランスフォーマーを用いた時間的アクション提案生成フレームワークを直感的に提案する。
境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測する。
The Proposal Transformer learns the rich-proposal relationship for reliable confidence evaluation。
論文 参考訳(メタデータ) (2021-05-25T16:22:12Z) - Visual Composite Set Detection Using Part-and-Sum Transformers [74.26037922682355]
本稿では,エンドツーエンドのコンポジットセット検出を行うために,PST(Part-and-Sum Detection Transformer)という新しい手法を提案する。
PSTは、カスタムデザインの2段階モデルの結果とほぼ一致しながら、シングルステージモデル間で最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-05-05T16:31:32Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Actor-Transformers for Group Activity Recognition [43.60866347282833]
本稿では,ビデオから個人行動やグループ活動を認識することを目的とする。
本稿では,グループ活動認識に関連する情報を学習し,選択的に抽出できるアクター・トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2020-03-28T07:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。