論文の概要: Dynamic Token Selection for Aerial-Ground Person Re-Identification
- arxiv url: http://arxiv.org/abs/2412.00433v2
- Date: Wed, 25 Dec 2024 10:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:10.935030
- Title: Dynamic Token Selection for Aerial-Ground Person Re-Identification
- Title(参考訳): 空中人物再同定のための動的トークン選択
- Authors: Yuhai Wang, Maryam Pishgar,
- Abstract要約: AGPReIDに適した新しい動的トークン選択変換器(DTST)を提案する。
入力画像を複数のトークンに分割し、各トークンは画像内のユニークな領域や特徴を表す。
我々はTop-k戦略を用いて、識別に不可欠な重要な情報を含む最も重要なトークンkを抽出する。
- 参考スコア(独自算出の注目度): 0.36832029288386137
- License:
- Abstract: Aerial-Ground Person Re-identification (AGPReID) holds significant practical value but faces unique challenges due to pronounced variations in viewing angles, lighting conditions, and background interference. Traditional methods, often involving a global analysis of the entire image, frequently lead to inefficiencies and susceptibility to irrelevant data. In this paper, we propose a novel Dynamic Token Selective Transformer (DTST) tailored for AGPReID, which dynamically selects pivotal tokens to concentrate on pertinent regions. Specifically, we segment the input image into multiple tokens, with each token representing a unique region or feature within the image. Using a Top-k strategy, we extract the k most significant tokens that contain vital information essential for identity recognition. Subsequently, an attention mechanism is employed to discern interrelations among diverse tokens, thereby enhancing the representation of identity features. Extensive experiments on benchmark datasets showcases the superiority of our method over existing works. Notably, on the CARGO dataset, our proposed method gains 1.18% mAP improvements when compared to the second place. In addition, we comprehensively analyze the impact of different numbers of tokens, token insertion positions, and numbers of heads on model performance.
- Abstract(参考訳): AGPReID(Aerial-Ground Person Re-identification, AGPReID)は、視角、照明条件、背景干渉の差異が顕著なため、重要な実用的価値を持っているが、固有の課題に直面している。
画像全体をグローバルに分析する伝統的な手法は、しばしば非効率性や無関係なデータへの感受性をもたらす。
本稿では,AGPReIDに適した動的トークン選択変換器(DTST)を提案する。
具体的には、入力画像を複数のトークンに分割し、各トークンは画像内のユニークな領域や特徴を表す。
我々はTop-k戦略を用いて、識別に不可欠な重要な情報を含む最も重要なトークンkを抽出する。
その後、多彩なトークン間の相互関係を識別するために注意機構が採用され、アイデンティティの特徴の表現が強化される。
ベンチマークデータセットの大規模な実験は、既存の研究よりも我々の方法の方が優れていることを示している。
特に、CARGOデータセットでは、提案手法は第2位に比べて1.18%mAP改善されている。
さらに,異なるトークン数,トークン挿入位置,ヘッド数がモデル性能に与える影響を包括的に分析した。
関連論文リスト
- Unified Local and Global Attention Interaction Modeling for Vision Transformers [1.9571946424055506]
本稿では,視覚変換器(ViT)の自己認識機構を拡張し,多様なデータセット間でより正確な物体検出を行う手法を提案する。
ViTは、オブジェクト検出、セグメンテーション、分類などの画像理解タスクに強力な能力を示す。
従来の自己意識フレームワークには,局所的特徴混合のための新たなアグレッシブ・コンボリューション・プール戦略と,新たな概念的アテンション・トランスフォーメーションという,2つの改良が加えられている。
論文 参考訳(メタデータ) (2024-12-25T04:53:19Z) - Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。
様々な数の非構造化入力画像から情報を構造化表現に集約する。
様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-12T19:21:20Z) - Disentangled Representations for Short-Term and Long-Term Person Re-Identification [33.76874948187976]
アイデンティティシャッフルGAN(Identity shuffle GAN:IS-GAN)と呼ばれる新たな生成対向ネットワークを提案する。
それは、アイデンティティシャッフル技術によって、個人画像からアイデンティティ関連および非関連の特徴を解き放つ。
実験により,IS-GANの有効性が検証され,標準reIDベンチマークにおける最先端性能が示された。
論文 参考訳(メタデータ) (2024-09-09T02:09:49Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation [38.0401463751139]
本稿では、フロンティアを前進させるための新しいスペクトルdEcomposed Token(SET)学習フレームワークを提案する。
特に、凍結されたVFM特徴は、まず周波数空間の位相成分と振幅成分に分解される。
提案手法は, 提案手法を用いて, 推論中におけるスタイル影響表現と静的トークンのギャップを埋める手法である。
論文 参考訳(メタデータ) (2024-07-26T07:50:48Z) - TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - Selective Domain-Invariant Feature for Generalizable Deepfake Detection [21.671221284842847]
本稿では,コンテンツの特徴やスタイルを融合させることにより,顔の偽造に対する感受性を低下させる新しいフレームワークを提案する。
既存のベンチマークと提案における質的および定量的な結果の両方が、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2024-03-19T13:09:19Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。