論文の概要: ReAct: Temporal Action Detection with Relational Queries
- arxiv url: http://arxiv.org/abs/2207.07097v1
- Date: Thu, 14 Jul 2022 17:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 13:29:22.162395
- Title: ReAct: Temporal Action Detection with Relational Queries
- Title(参考訳): react:リレーショナルクエリによる時間的アクション検出
- Authors: Dingfeng Shi, Yujie Zhong, Qiong Cao, Jing Zhang, Lin Ma, Jia Li and
Dacheng Tao
- Abstract要約: 本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
- 参考スコア(独自算出の注目度): 84.76646044604055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims at advancing temporal action detection (TAD) using an
encoder-decoder framework with action queries, similar to DETR, which has shown
great success in object detection. However, the framework suffers from several
problems if directly applied to TAD: the insufficient exploration of
inter-query relation in the decoder, the inadequate classification training due
to a limited number of training samples, and the unreliable classification
scores at inference. To this end, we first propose a relational attention
mechanism in the decoder, which guides the attention among queries based on
their relations. Moreover, we propose two losses to facilitate and stabilize
the training of action classification. Lastly, we propose to predict the
localization quality of each action query at inference in order to distinguish
high-quality queries. The proposed method, named ReAct, achieves the
state-of-the-art performance on THUMOS14, with much lower computational costs
than previous methods. Besides, extensive ablation studies are conducted to
verify the effectiveness of each proposed component. The code is available at
https://github.com/sssste/React.
- Abstract(参考訳): この研究は、detrと同様のアクションクエリを持つエンコーダ-デコーダフレームワークを使用して、時間的アクション検出(tad)を前進させることを目標としている。
しかし、このフレームワークは、DADに直接適用される場合、デコーダにおけるクエリ間関係の探索不足、限られたトレーニングサンプル数による不適切な分類訓練、推論時の信頼性の低い分類スコアなど、いくつかの問題に悩まされている。
そこで本研究では,まず,それらの関係に基づいてクエリ間の注意を誘導する関係的注意機構をデコーダで提案する。
さらに,行動分類の訓練を促進・安定化するために,二つの損失を提案する。
最後に,各アクションクエリの局所化品質を推定し,高品質なクエリを識別する手法を提案する。
提案手法はreactと呼ばれ、thums14の最先端性能を実現し、計算コストは従来の方法よりもはるかに低い。
また,各成分の有効性を検証するため,広範なアブレーション試験を行った。
コードはhttps://github.com/ssste/reactで入手できる。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - CoRec: An Easy Approach for Coordination Recognition [8.618336635685859]
パイプラインモデル座標RECognizer(CoRec)を提案する。
コーディネータと共役境界検出器の2つの構成要素から構成される。
実験によると、CoRecは下流タスクに肯定的な影響を与え、最先端のOpen IEモデルの収量を改善する。
論文 参考訳(メタデータ) (2023-11-30T17:11:27Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - PSDiff: Diffusion Model for Person Search with Iterative and
Collaborative Refinement [59.6260680005195]
本稿では,拡散モデルであるPSDiffに基づく新しいPerson Searchフレームワークを提案する。
PSDiffは、ノイズの多いボックスとReID埋め込みから地上の真実へのデュアルデノケーションプロセスとして検索する人を定式化する。
新しいパラダイムに従って、我々は、反復的かつ協調的な方法で検出とReIDサブタスクを最適化する新しいコラボレーティブ・デノナイジング・レイヤ(CDL)を設計する。
論文 参考訳(メタデータ) (2023-09-20T08:16:39Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection [17.326702469604676]
未確認クラスのごく少数の例から、新しいオブジェクトを迅速に検出することを目的としていない。
既存のほとんどのアプローチでは、基本的な検出フレームワークとしてFaster R-CNNを使用している。
DeFRCN (Decoupled Faster R-CNN) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:12:55Z) - Modulating Localization and Classification for Harmonized Object
Detection [40.82723262074911]
2つのタスクを変調する相互学習フレームワークを提案する。
特に,2つのタスクは,新たな相互ラベル付け戦略によって互いに学習することを余儀なくされる。
COCOデータセットのベースライン検出器に対する大幅なパフォーマンス向上を実現しました。
論文 参考訳(メタデータ) (2021-03-16T10:36:02Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。