論文の概要: Set Augmented Triplet Loss for Video Person Re-Identification
- arxiv url: http://arxiv.org/abs/2011.00774v2
- Date: Sat, 7 Nov 2020 03:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:16:22.877386
- Title: Set Augmented Triplet Loss for Video Person Re-Identification
- Title(参考訳): 映像人物再同定のための三重項損失の設定
- Authors: Pengfei Fang, Pan Ji, Lars Petersson, Mehrtash Harandi
- Abstract要約: 対応する三重項損失における集合間の距離について検討する。
クリップ表現間の距離とは対照的に、クリップセット間の距離は各要素の対の類似性を考える。
提案手法は,いくつかの標準ベンチマークにおいて最先端の結果を得る。
- 参考スコア(独自算出の注目度): 41.37088462767585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern video person re-identification (re-ID) machines are often trained
using a metric learning approach, supervised by a triplet loss. The triplet
loss used in video re-ID is usually based on so-called clip features, each
aggregated from a few frame features. In this paper, we propose to model the
video clip as a set and instead study the distance between sets in the
corresponding triplet loss. In contrast to the distance between clip
representations, the distance between clip sets considers the pair-wise
similarity of each element (i.e., frame representation) between two sets. This
allows the network to directly optimize the feature representation at a frame
level. Apart from the commonly-used set distance metrics (e.g., ordinary
distance and Hausdorff distance), we further propose a hybrid distance metric,
tailored for the set-aware triplet loss. Also, we propose a hard positive set
construction strategy using the learned class prototypes in a batch. Our
proposed method achieves state-of-the-art results across several standard
benchmarks, demonstrating the advantages of the proposed method.
- Abstract(参考訳): 現代のビデオパーソン再識別(re-id)マシンは、しばしば三重項損失によって監督されるメトリック学習アプローチを使って訓練される。
ビデオリIDで使用されるトリプルト損失は、通常、クリップ機能と呼ばれるいくつかのフレーム機能から集約されたクリップ機能に基づいている。
本稿では,ビデオクリップを集合としてモデル化し,それに対応する三重項損失における集合間の距離について検討する。
クリップ表現間の距離とは対照的に、クリップセット間の距離は2つのセット間の各要素(フレーム表現)の対の類似性を考える。
これにより、ネットワークはフレームレベルで機能表現を直接最適化できる。
普通距離やハウスドルフ距離など、一般的に使用される集合距離メトリクスとは別に、集合認識三重項損失用に調整されたハイブリッド距離メトリックも提案する。
また,学習したクラスプロトタイプをバッチで使用して,強正のセット構築戦略を提案する。
提案手法は,提案手法の利点を実証し,いくつかの標準ベンチマークにおける最先端結果を実現する。
関連論文リスト
- HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - PatchMatch-Stereo-Panorama, a fast dense reconstruction from 360{\deg}
video images [0.0]
この研究は、現在のアプローチとは異なる、PatchMatch-Stereo-algorithmの非常に並列な新しい変種を記述する。
以上の結果から,最近のモバイルGPUを用いたコンシューマグレードのラップトップでは,高密度な3D再構成が可能であることが示唆された。
論文 参考訳(メタデータ) (2022-11-29T14:54:01Z) - 3D-CSL: self-supervised 3D context similarity learning for
Near-Duplicate Video Retrieval [17.69904571043164]
NDVR(Near-Duplicate Video Retrieval)のためのコンパクトパイプラインである3D-SLを導入する。
ネットワークを最適化するための2段階の自己教師型類似性学習戦略を提案する。
本手法は,クリップレベルのNDVRにおける最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-10T05:51:08Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - On Pursuit of Designing Multi-modal Transformer for Video Grounding [35.25323276744999]
ビデオグラウンディングは、未編集のビデオから文クエリに対応する時間セグメントをローカライズすることを目的としている。
本稿では,bfGTRと呼ばれる新しいエンド・ツー・エンドのマルチモーダルトランスフォーマーモデルを提案する。具体的には,GTRはビデオ符号化と言語符号化のための2つのエンコーダと,グラウンドディング予測のためのクロスモーダルデコーダを備える。
3つの典型的なGTR変種は、すべてのデータセットとメトリクスで記録破りのパフォーマンスを達成し、推論速度は数倍高速である。
論文 参考訳(メタデータ) (2021-09-13T16:01:19Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z) - Few-shot Action Recognition with Permutation-invariant Attention [169.61294360056925]
ビデオブロックを符号化するC3Dエンコーダを用いて、短距離アクションパターンをキャプチャする。
我々は,空間的・時間的注意モジュールと自然主義的自己スーパービジョンを利用する。
提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
論文 参考訳(メタデータ) (2020-01-12T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。