論文の概要: Dynamic Token Selection for Aerial-Ground Person Re-Identification
- arxiv url: http://arxiv.org/abs/2412.00433v1
- Date: Sat, 30 Nov 2024 11:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:57.717778
- Title: Dynamic Token Selection for Aerial-Ground Person Re-Identification
- Title(参考訳): 空中人物再同定のための動的トークン選択
- Authors: Yuhai Wang,
- Abstract要約: 人物再識別(ReID)における視点差に対処するビューデカップリング変換器(VDT)フレームワークを提案する。
VDTは、メタトークンとビュートークンを活用して、ビュー固有のとビュー非依存の機能を分離する。
- 参考スコア(独自算出の注目度): 0.43512163406552007
- License:
- Abstract: We propose a View-Decoupled Transformer (VDT) framework to address viewpoint discrepancies in person re-identification (ReID), particularly between aerial and ground views. VDT decouples view-specific and view-independent features by leveraging meta and view tokens, processed through self-attention and subtractive separation. Additionally, we introduce a Visual Token Selector (VTS) module that dynamically selects the most informative tokens, reducing redundancy and enhancing efficiency. Our approach significantly improves retrieval performance on the AGPReID dataset, while maintaining computational efficiency similar to baseline models.
- Abstract(参考訳): 本稿では,人体再識別(ReID)における視点不一致に対処するビューデカップリングトランスフォーマ(VDT)フレームワークを提案する。
VDTは、メタトークンとビュートークンを活用して、ビュー固有のとビュー非依存の機能を分離する。
さらに、最も情報性の高いトークンを動的に選択し、冗長性を低減し、効率を向上するVisual Token Selector (VTS) モジュールも導入する。
提案手法は,ベースラインモデルと同様の計算効率を維持しつつ,AGPReIDデータセットの検索性能を大幅に向上させる。
関連論文リスト
- View-decoupled Transformer for Person Re-identification under Aerial-ground Camera Network [87.36616083812058]
地上人物再識別のための簡易かつ効果的なフレームワークとして,ビューデカップリングトランス (VDT) が提案されている。
2つの主要なコンポーネントは、ビュー関連とビュー非関連の機能を切り離すためにVDTで設計されている。
さらに,5/8の空中/地上カメラ,5,000のアイデンティティ,108,563のイメージからなる大規模AGPReIDデータセットCARGOをコントリビュートした。
論文 参考訳(メタデータ) (2024-03-21T16:08:21Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - AttributeNet: Attribute Enhanced Vehicle Re-Identification [70.89289512099242]
本稿では,属性特徴と属性特徴を共同で抽出するAttributeNet(ANet)を提案する。
ReID-helpful属性特徴を蒸留し、一般的なReID特徴に加えることで、識別能力を高めることができる。
3つの挑戦的なデータセットに対して,我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2021-02-07T19:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。