論文の概要: Vision Transformer based Random Walk for Group Re-Identification
- arxiv url: http://arxiv.org/abs/2410.05808v1
- Date: Tue, 8 Oct 2024 08:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:39:56.698741
- Title: Vision Transformer based Random Walk for Group Re-Identification
- Title(参考訳): 視覚変換器を用いたグループ再同定のためのランダムウォーク
- Authors: Guoqing Zhang, Tianqi Liu, Wenxuan Fang, Yuhui Zheng,
- Abstract要約: グループ再識別(re-ID)は、異なるカメラの下で同じ人とグループを一致させることを目的としている。
グループ再IDのための新しい視覚変換器に基づくランダムウォークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.63292108454152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group re-identification (re-ID) aims to match groups with the same people under different cameras, mainly involves the challenges of group members and layout changes well. Most existing methods usually use the k-nearest neighbor algorithm to update node features to consider changes in group membership, but these methods cannot solve the problem of group layout changes. To this end, we propose a novel vision transformer based random walk framework for group re-ID. Specifically, we design a vision transformer based on a monocular depth estimation algorithm to construct a graph through the average depth value of pedestrian features to fully consider the impact of camera distance on group members relationships. In addition, we propose a random walk module to reconstruct the graph by calculating affinity scores between target and gallery images to remove pedestrians who do not belong to the current group. Experimental results show that our framework is superior to most methods.
- Abstract(参考訳): グループ再識別(re-ID)は、グループメンバーの課題とレイアウトの変更を主眼として、異なるカメラの下で同じ人物とグループをマッチングすることを目的としている。
既存のほとんどの手法では、ノードの特徴を更新してグループメンバーシップの変更を検討するのにk-nearest 隣のアルゴリズムを使っているが、これらの手法はグループレイアウトの変更の問題を解決することはできない。
そこで本研究では,グループ再IDのための視覚変換器を用いたランダムウォークフレームワークを提案する。
具体的には、単眼深度推定アルゴリズムに基づく視覚変換器を設計し、歩行者特徴の平均深度値を用いてグラフを構築し、カメラ距離がグループメンバーの関係に与える影響を十分に検討する。
さらに,対象画像とギャラリー画像間の親和性スコアを算出し,現在グループに属さない歩行者を除去し,グラフを再構築するランダムウォークモジュールを提案する。
実験の結果,我々のフレームワークはほとんどの手法よりも優れていることがわかった。
関連論文リスト
- The Research of Group Re-identification from Multiple Cameras [0.4955551943523977]
グループ再識別は、従来の再識別タスクにおいて、視点や人間のポーズのバリエーションによって妨げられているだけでなく、非常に難しい。
本稿では,グループ内の多粒度情報を活用してグループ再同定を容易にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T18:28:13Z) - AggNet: Learning to Aggregate Faces for Group Membership Verification [20.15673797674449]
いくつかの顔認識アプリケーションでは、個人がグループのメンバーであるかどうかを、そのアイデンティティを明らかにすることなく確認することに興味がある。
いくつかの既存手法では、事前計算された顔記述子を離散的な埋め込みに量子化し、それらを一つのグループ表現に集約する機構が提案されている。
本稿では,顔記述子とアグリゲーション機構を協調的に学習し,エンドツーエンドのパフォーマンスを向上させるディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-17T10:48:34Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - Causal Scene BERT: Improving object detection by searching for
challenging groups of data [125.40669814080047]
コンピュータビジョンアプリケーションは、物体検出のようなタスクのためにニューラルネットワークでパラメータ化された学習ベースの知覚モジュールに依存している。
これらのモジュールは、トレーニングプロセスに固有のバイアスのため、予想される誤差が低いが、データの非定型的なグループに対して高い誤差を持つことが多い。
本研究の主な貢献は,シミュレートされたシーンに対して因果的介入を行うことにより,前向きにそのようなグループを発見する擬似オートマチック手法である。
論文 参考訳(メタデータ) (2022-02-08T05:14:16Z) - Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。
本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。
本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T09:57:47Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Group-CAM: Group Score-Weighted Visual Explanations for Deep
Convolutional Networks [4.915848175689936]
グループスコア強調クラスアクティベーションマッピング(Group-CAM)と呼ばれる効率的なサリエンシーマップ生成法を提案する。
Group-CAMは効率的だが有効であり、ターゲット関連サリエンシマップを生成する間は、ネットワークに数十のクエリしか必要としない。
論文 参考訳(メタデータ) (2021-03-25T14:16:02Z) - Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for
Unsupervised Person Re-Identification [60.36551512902312]
unsupervised person re-identification (re-ID) は、ラベルのないデータで識別モデルを学ぶことを目的としている。
一般的な方法としては、クラスタ化によって擬似ラベルを取得し、モデルを最適化するために使用する方法がある。
本稿では,両問題を解決するための統一フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T09:13:06Z) - Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。
本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文 参考訳(メタデータ) (2020-10-02T07:11:19Z) - Deep Grouping Model for Unified Perceptual Parsing [36.73032339428497]
知覚に基づくグループ化プロセスは階層的および構成的イメージ表現を生成する。
本稿では,2種類の表現を密に結合したディープグルーピングモデル(DGM)を提案し,特徴交換のためのボトムアップとトップダウンプロセスを定義する。
このモデルは、他の文脈ベースセグメンテーションモデルと比較して計算オーバーヘッドが小さく、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-03-25T21:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。