論文の概要: Cascade Transformers for End-to-End Person Search
- arxiv url: http://arxiv.org/abs/2203.09642v1
- Date: Thu, 17 Mar 2022 22:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:14:23.572659
- Title: Cascade Transformers for End-to-End Person Search
- Title(参考訳): エンドツーエンド検索のためのカスケード変換器
- Authors: Rui Yu, Dawei Du, Rodney LaLonde, Daniel Davila, Christopher Funk,
Anthony Hoogs, Brian Clipp
- Abstract要約: エンドツーエンドの人物検索のためのカスケード付加注意変換器(COAT)を提案する。
COATは、第1段階の人の検出に焦点を当て、第2段階の人の検出と再識別の表現を同時に、段階的に洗練する。
2つのベンチマークデータセット上で最先端の性能を達成することで,本手法の利点を実証する。
- 参考スコア(独自算出の注目度): 18.806369852341334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of person search is to localize a target person from a gallery set
of scene images, which is extremely challenging due to large scale variations,
pose/viewpoint changes, and occlusions. In this paper, we propose the Cascade
Occluded Attention Transformer (COAT) for end-to-end person search. Our
three-stage cascade design focuses on detecting people in the first stage,
while later stages simultaneously and progressively refine the representation
for person detection and re-identification. At each stage the occluded
attention transformer applies tighter intersection over union thresholds,
forcing the network to learn coarse-to-fine pose/scale invariant features.
Meanwhile, we calculate each detection's occluded attention to differentiate a
person's tokens from other people or the background. In this way, we simulate
the effect of other objects occluding a person of interest at the token-level.
Through comprehensive experiments, we demonstrate the benefits of our method by
achieving state-of-the-art performance on two benchmark datasets.
- Abstract(参考訳): 人物探索の目的は、大規模な変動、ポーズ/ビューポイントの変化、オクルージョンによって非常に困難なシーンイメージのギャラリーセットから対象人物をローカライズすることである。
本稿では、エンドツーエンドの人物検索のためのカスケード付加注意変換器(COAT)を提案する。
我々の3段階のカスケードデザインは、第1段階の人物検出に焦点を合わせ、第2段階の人物検出と再識別の表現を段階的に洗練する。
各段階で、隠蔽された注意変換器は、結合しきい値よりも密接な交叉を施し、ネットワークは粗いポーズ/スケール不変の特徴を学習せざるを得ない。
一方,個人のトークンを他人や背景と区別するために,各検出者の集中度を算出した。
このようにして、トークンレベルでの利害関係者を含む他のオブジェクトの効果をシミュレートする。
総合的な実験により,本手法の利点を2つのベンチマークデータセットで実証する。
関連論文リスト
- AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Learning Feature Recovery Transformer for Occluded Person
Re-identification [71.18476220969647]
本稿では,FRT(Feature Recovery Transformer)と呼ばれる2つの課題を同時に解決する手法を提案する。
特徴マッチング時のノイズの干渉を低減するため,両画像に現れる可視領域に着目し,類似性を計算するための可視グラフを開発した。
2つ目の課題は、グラフの類似性に基づいて、各クエリ画像に対して、ギャラリー内の$k$-nearestの隣人の特徴セットを利用して、完全な特徴を復元するリカバリトランスフォーマを提案することである。
論文 参考訳(メタデータ) (2023-01-05T02:36:16Z) - Sequential Transformer for End-to-End Person Search [4.920657401819193]
人物探索は、現実的かつ未収集のギャラリーイメージから対象人物を同時にローカライズし、認識することを目的としている。
本稿では,この課題に対処するエンド・ツー・エンドの人物探索のためのシークエンシャル・トランスフォーマー(SeqTR)を提案する。
我々のSeqTRは検出変換器と、検出タスクと再IDタスクを逐次処理する新しいre-ID変換器を備えている。
論文 参考訳(メタデータ) (2022-11-06T09:32:30Z) - DPIT: Dual-Pipeline Integrated Transformer for Human Pose Estimation [24.082220581799156]
ポーズ推定のための新しいDual-Pipeline Integrated Transformer (DPIT)を提案する。
DPITは2つのブランチで構成され、ボトムアップブランチは全体像を扱い、グローバルな視覚情報をキャプチャする。
ボトムアップとトップダウンの分岐から抽出した特徴表現をトランスフォーマーエンコーダに入力し、グローバルとローカルの知識を対話的に融合させる。
論文 参考訳(メタデータ) (2022-09-02T10:18:26Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Human-Object Interaction Detection via Disentangled Transformer [63.46358684341105]
本稿では,2つのサブタスクの学習を容易にするために,エンコーダとデコーダの両方をアンタングル化するDisentangled Transformerを提案する。
提案手法は,2つの公開HOIベンチマークにおいて,従来よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-04-20T08:15:04Z) - Motion-Aware Transformer For Occluded Person Re-identification [1.9899263094148867]
本研究では,非閉塞者Re-IDを用いた自己教師型深層学習手法を提案する。
従来の研究とは異なり、さまざまな姿勢の写真から得られる動き情報は、主要な人間の身体成分を識別するのに役立ちます。
論文 参考訳(メタデータ) (2022-02-09T02:53:10Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。