論文の概要: A Spatio-Temporal Identity Verification Method for Person-Action
Instance Search in Movies
- arxiv url: http://arxiv.org/abs/2111.00228v1
- Date: Sat, 30 Oct 2021 11:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 17:26:41.791474
- Title: A Spatio-Temporal Identity Verification Method for Person-Action
Instance Search in Movies
- Title(参考訳): 映画における人物行動事例探索のための時空間同一性検証手法
- Authors: Jingyao Yang, Chao Liang, Yanrui Niu, Baojin Huang and Zhongyuan Wang
- Abstract要約: Person-Action Instance Search (INS) は、大規模なビデオ撮影から特定の人物が特定のアクションを実行するショットを検索することを目的としている。
2つの個別INSスコアの直接集計は、個人と行動間のアイデンティティの整合性を保証することはできない。
個人INSとアクションINSの直接融合スコアを最適化するためのアイデンティティ整合性検証手法を提案する。
- 参考スコア(独自算出の注目度): 32.76347250146175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the challenging problems in video search, Person-Action Instance
Search (INS) aims to retrieve shots with specific person carrying out specific
action from massive video shots. Existing methods mainly include two steps:
First, two individual INS branches, i.e., person INS and action INS, are
separately conducted to compute the initial person and action ranking scores;
Second, both scores are directly fused to generate the final ranking list.
However, direct aggregation of two individual INS scores cannot guarantee the
identity consistency between person and action. For example, a shot with "Pat
is standing" and "Ian is sitting on couch" may be erroneously understood as
"Pat is sitting on couch" or "Ian is standing". To address the above identity
inconsistency problem (IIP), we study a spatio-temporal identity verification
method. Specifically, in the spatial dimension, we propose an identity
consistency verification scheme to optimize the direct fusion score of person
INS and action INS. The motivation originates from an observation that face
detection results usually locate in the identity-consistent action bounding
boxes. Moreover, in the temporal dimension, considering the complex filming
condition, we propose an inter-frame detection extension operation to
interpolate missing face/action detection results in successive video frames.
The proposed method is evaluated on the large scale TRECVID INS dataset, and
the experimental results show that our method can effectively mitigate the IIP
and surpass the existing second places in both TRECVID 2019 and 2020 INS tasks.
- Abstract(参考訳): ビデオ検索の難しい問題の一つとして、Person-Action Instance Search (INS)は、大量のビデオから特定の人物が特定のアクションを実行しているショットを検索することを目指している。
既存の方法は、まず、個人INSとアクションINSの2つの個別のINSブランチを別々に行い、初期人物とアクションランキングスコアを計算し、次に、両方のスコアを直接融合して最終ランキングを生成する。
しかし、2つのinsスコアの直接集計は、個人と行動の同一性を保証することはできない。
例えば、"pat is standing" と "ian is sitting on couch" のショットは、誤って "pat is sitting on couch" あるいは "ian is standing" と解釈されることがある。
上記の同一性不整合問題(IIP)に対処するため,時空間同定手法を提案する。
具体的には、空間次元において、個人INSとアクションINSの直接融合スコアを最適化するためのアイデンティティ整合性検証手法を提案する。
このモチベーションは、顔検出結果が通常、アイデンティティ一貫性のある行動境界ボックスにあるという観察に由来する。
さらに, 複雑な撮影条件を考慮した時間次元において, 連続する映像フレームにおいて欠落した顔・動作検出結果を補間するフレーム間検出拡張演算を提案する。
提案手法は,大規模なTRECVID INSデータセットを用いて評価し,本手法はIIPを効果的に軽減し,既存のTRECVID 2019および2020 INSタスクの2位を超えることができることを示した。
関連論文リスト
- Data-Driven but Privacy-Conscious: Pedestrian Dataset De-identification
via Full-Body Person Synthesis [16.394031759681678]
ペデストリアンデータセットの復号化タスクを動機付け,導入する。
PDIは、所定の非識別法に対して、非識別度とダウンストリームタスクトレーニング性能を評価する。
私たちのデータは、プライバシを意識した方法で、合成から実際のパフォーマンスギャップを狭めることができるかを示します。
論文 参考訳(メタデータ) (2023-06-20T17:39:24Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Actor-identified Spatiotemporal Action Detection -- Detecting Who Is
Doing What in Videos [29.5205455437899]
ビデオ中の各アクションの開始時刻と終了時刻を推定するために、TAD(Temporal Action Detection)が検討されている。
時空間行動検出 (SAD) は, 映像の空間的, 時間的両方の行動の局所化を目的として研究されている。
SADアクター識別のギャップを埋める新しいタスクであるActor-identified Spatiotemporal Action Detection (ASAD)を提案する。
論文 参考訳(メタデータ) (2022-08-27T06:51:12Z) - Exploring Visual Context for Weakly Supervised Person Search [155.46727990750227]
人探索は、歩行者の検出と人物の再識別を共同で扱う、困難なタスクとして最近登場した。
既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従っている。
本稿では,ボックスアノテーションのみを用いた弱教師付き人物検索について実験的に考察する。
論文 参考訳(メタデータ) (2021-06-19T14:47:13Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z) - Taking Modality-free Human Identification as Zero-shot Learning [46.51413603352702]
我々は、新しいモダリティフリーヒューマン識別(MFHI)タスクを、スケーラブルな方法で汎用的なゼロショット学習モデルとして開発する。
各アイデンティティの識別プロトタイプを学習することで、視覚的および意味的なモダリティをブリッジすることができる。
さらに、意味論に基づく空間的注意は、高グローバルなカテゴリーレベルと局所的な属性レベルを区別した表現を得るために、視覚的モダリティに強制される。
論文 参考訳(メタデータ) (2020-10-02T13:08:27Z) - Pose-guided Visible Part Matching for Occluded Person ReID [80.81748252960843]
本稿では、ポーズ誘導による特徴の識別を共同で学習し、その部分の可視性を自己判断する Pose-Guided Visible Part Matching (PVPM) 法を提案する。
実験結果から,提案手法は最先端手法と競合する性能を示した。
論文 参考訳(メタデータ) (2020-04-01T04:36:51Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z) - Towards Precise Intra-camera Supervised Person Re-identification [54.86892428155225]
人物の再識別(Re-ID)のためのカメラ内監視(ICS)は、アイデンティティラベルが各カメラビュー内に独立してアノテートされていると仮定する。
カメラ間ラベルの欠如により、ICS Re-ID問題は、完全に監督されたラベルよりもはるかに難しい。
われわれの手法は、2つのデータセットで最先端の完全教師付き手法に匹敵する性能を発揮する。
論文 参考訳(メタデータ) (2020-02-12T11:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。