論文の概要: Local-Global Associative Frame Assemble in Video Re-ID
- arxiv url: http://arxiv.org/abs/2110.12018v1
- Date: Fri, 22 Oct 2021 19:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 03:11:30.452307
- Title: Local-Global Associative Frame Assemble in Video Re-ID
- Title(参考訳): ビデオre-idにおける局所的グローバルアソシエーションフレームアセンブラ
- Authors: Qilei Li, Jiabo Huang, Shaogang Gong
- Abstract要約: ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
- 参考スコア(独自算出の注目度): 57.7470971197962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Noisy and unrepresentative frames in automatically generated object bounding
boxes from video sequences cause significant challenges in learning
discriminative representations in video re-identification (Re-ID). Most
existing methods tackle this problem by assessing the importance of video
frames according to either their local part alignments or global appearance
correlations separately. However, given the diverse and unknown sources of
noise which usually co-exist in captured video data, existing methods have not
been effective satisfactorily. In this work, we explore jointly both local
alignments and global correlations with further consideration of their mutual
promotion/reinforcement so to better assemble complementary discriminative
Re-ID information within all the relevant frames in video tracklets.
Specifically, we concurrently optimise a local aligned quality (LAQ) module
that distinguishes the quality of each frame based on local alignments, and a
global correlated quality (GCQ) module that estimates global appearance
correlations. With the help of a local-assembled global appearance prototype,
we associate LAQ and GCQ to exploit their mutual complement. Extensive
experiments demonstrate the superiority of the proposed model against
state-of-the-art methods on five Re-ID benchmarks, including MARS, Duke-Video,
Duke-SI, iLIDS-VID, and PRID2011.
- Abstract(参考訳): ビデオシーケンスから自動生成されたオブジェクトバウンディングボックス内のノイズおよび非表現フレームは、ビデオ再識別(re-id)における識別表現の学習において重要な課題となる。
既存の手法のほとんどは、ビデオフレームの局所的なアライメントやグローバルな外観相関を別々に評価することでこの問題に対処している。
しかし、キャプチャーされたビデオデータに通常共存する多様で未知のノイズ源を考えると、既存の手法は有効ではない。
本研究では,ビデオトラクレット内のすべてのフレームにおいて,相補的な識別的Re-ID情報をよりよく組み立てるために,相互の促進・強化を考慮し,局所的アライメントと大域的相関を共同で検討する。
具体的には、局所的なアライメントに基づいて各フレームの品質を識別するローカルアライメント品質(LAQ)モジュールと、グローバルな外観相関を推定するグローバル相関品質(GCQ)モジュールを同時に最適化する。
局所的に組立てたグローバルな外観プロトタイプの助けを借りて、LAQとGCQを関連付け、それらの相互補完を利用する。
拡張実験では,MARS, Duke-Video, Duke-SI, iLIDS-VID, PRID2011を含む5つのRe-IDベンチマークにおいて, 最先端手法に対するモデルの有効性が示された。
関連論文リスト
- Global Meets Local: Effective Multi-Label Image Classification via
Category-Aware Weak Supervision [37.761378069277676]
本稿では,効果的雑音・確率抑圧を実現するための統一的な枠組みを構築した。
我々はグローバルな特徴とローカルな特徴の相補的な情報を探るため、粒度横断型アテンションモジュールを開発した。
我々のフレームワークは最先端の手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2022-11-23T05:39:17Z) - Context Sensing Attention Network for Video-based Person
Re-identification [20.865710012336724]
ビデオフレームに様々な干渉が存在するため、ReID(Video-based person re-identification)は困難である。
近年のアプローチでは、時間的集約戦略を用いてこの問題に対処している。
フレームの特徴抽出と時間的集約の両方を改善する新しいコンテキストセンシング注意ネットワーク(CSA-Net)を提案する。
論文 参考訳(メタデータ) (2022-07-06T12:48:27Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Global2Local: A Joint-Hierarchical Attention for Video Captioning [123.12188554567079]
本稿では,キークリップ,キーフレーム,キー領域をキャプションモデルに組み込んだ,ビデオキャプションのための新しい階層型アテンションモデルを提案する。
このような連立階層型アテンションモデルは、まずキーフレームを識別するためのグローバルセレクションを行い、続いてガムベルサンプリング操作を行い、キーフレームに基づいてさらにキー領域を識別する。
論文 参考訳(メタデータ) (2022-03-13T14:31:54Z) - Exploring Global Diversity and Local Context for Video Summarization [4.452227592307381]
ビデオ要約は,大規模ビデオ処理に有用な多種多様な簡潔な要約を自動的に生成することを目的としている。
ほとんどの手法では、ビデオフレーム間の自己注意機構を採用する傾向があり、ビデオフレームの多様性をモデル化できない。
そこで我々は,2乗ユークリッド距離を用いてアフィニティを求める。
論文 参考訳(メタデータ) (2022-01-27T06:56:01Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。