論文の概要: From Global to Local: Rethinking CLIP Feature Aggregation for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2604.22190v1
- Date: Fri, 24 Apr 2026 03:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.32821
- Title: From Global to Local: Rethinking CLIP Feature Aggregation for Person Re-Identification
- Title(参考訳): グローバルからローカルへ:人物再識別のためのCLIP機能集約の再考
- Authors: Aotian Zheng, Winston Sun, Bahaa Alattar, Vitaly Ablavsky, Jenq-Neng Hwang,
- Abstract要約: 中間パッチトークンとCLIPのテキスト埋め込み空間でパラメータ化されたアンカーベクトルを整列することで、同一性表現を再構築するSAGA-ReIDを提案する。
制御された実験は、2つの定性的に異なる条件下で凝集機構を分離する。
ベンチマーク評価では、CLIP-ReIDよりも標準設定と無視設定で一貫したゲインを確認している。
- 参考スコア(独自算出の注目度): 20.74226476678832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP-based person re-identification (ReID) methods aggregate spatial features into a single global \texttt{[CLS]} token optimized for image-text alignment rather than spatial selectivity, making representations fragile under occlusion and cross-camera variation. We propose SAGA-ReID, which reconstructs identity representations by aligning intermediate patch tokens with anchor vectors parameterized in CLIP's text embedding space -- emphasizing spatially stable evidence while suppressing corrupted or absent regions, without requiring textual descriptions of individual images. Controlled experiments isolate the aggregation mechanism under two qualitatively distinct conditions -- synthetic masking, where identity signal is absent, and realistic human distractors, where an overlapping person introduces semantically confusing signal -- with SAGA's advantage over global pooling growing substantially as occlusion increases across both conditions. Benchmark evaluations confirm consistent gains over CLIP-ReID across standard and occluded settings, with the largest improvements where global pooling is most unreliable: up to +10.6 Rank-1 on occluded benchmarks. SAGA's aggregation outperforms dedicated sequential patch aggregation on a stronger backbone, confirming that structured reconstruction addresses a bottleneck that backbone quality and architectural complexity alone cannot resolve. Code available at https://github.com/ipl-uw/Structured-Anchor-Guided-Aggregation-for-ReID.
- Abstract(参考訳): CLIPベースの人物再識別(ReID)手法は、空間的選択性よりも画像テキストアライメントに最適化された単一のグローバル \texttt{[CLS]} トークンに空間的特徴を集約する。
本稿では,CLIPのテキスト埋め込み空間でパラメータ化されたアンカーベクトルと中間パッチトークンを整合させてアイデンティティ表現を再構築するSAGA-ReIDを提案する。このSAGA-ReIDは,個々の画像のテキスト記述を必要とせず,空間的に安定なエビデンスを抑えつつ,個々の画像のテキスト記述を必要とせず,個々の画像のテキスト記述を不要とする。制御された実験により,アグリゲーション機構を2つの定性的に異なる条件 – アイデンティティ信号が存在しない合成マスキングと,現実的な人間のイントラクタ – で分離し,重複する人物が意味的に混乱する信号を導入することで,SAGAのグローバルプールリングに対するアドバンテージが増大する。
ベンチマーク評価では、CLIP-ReIDよりも標準および排他的設定で一貫した利得が確認されており、グローバルプールが最も信頼できない最大の改善は、排他的ベンチマークで+10.6 Rank-1までである。
SAGAのアグリゲーションは、より強力なバックボーン上でのシーケンシャルなパッチアグリゲーションよりも優れており、構造化された再構築はバックボーンの品質とアーキテクチャの複雑さだけでは解決できないボトルネックに対処する。
コードはhttps://github.com/ipl-uw/Structured-Anchor-Guided-Aggregation-for-ReIDで公開されている。
関連論文リスト
- Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - SETR: A Two-Stage Semantic-Enhanced Framework for Zero-Shot Composed Image Retrieval [4.230223288110963]
Zero-shot Composed Image Retrieval (ZS-CIR)は、トリプルトアノテーションに頼ることなく、参照画像と相対テキストが与えられたターゲット画像を取得することを目的としている。
既存のCLIPベースの手法では、(1)組合ベースの特徴融合は、意図した変更を希釈する無関係な背景の詳細を担いながら、すべての視覚的手がかりを無差別に集約し、(2)CLIP埋め込みからのグローバルなコサイン類似性は、きめ細かいセマンティックな関係を解く能力に欠ける。
論文 参考訳(メタデータ) (2025-09-30T09:41:52Z) - OmniFC: Rethinking Federated Clustering via Lossless and Secure Distance Reconstruction [10.326927761316986]
フェデレーションクラスタリングは、生データを共有せずに、分散クライアント全体にわたるグローバルクラスタ構造を見つけることを目的としている。
1)コラボレーション中のプライバシー漏洩と,(2)プロキシ情報の集約による堅牢性低下の2つが重要な課題である。
我々は,統一的でモデルに依存しないフレームワークであるOmni Federated Clusteringを提案する。
論文 参考訳(メタデータ) (2025-05-19T13:04:59Z) - Triplet Contrastive Learning for Unsupervised Vehicle Re-identification [55.445358749042384]
部分的特徴学習は、車両の再識別におけるセマンティック理解にとって重要な技術である。
本稿では,クラスタ機能を活用したTCL(Triplet Contrastive Learning framework)を提案する。
論文 参考訳(メタデータ) (2023-01-23T15:52:12Z) - Calibrated Feature Decomposition for Generalizable Person
Re-Identification [82.64133819313186]
Calibrated Feature Decomposition (CFD)モジュールは、人物の再識別の一般化能力の向上に焦点を当てている。
キャリブレーション・アンド・スタンダード化されたバッチ正規化(CSBN)は、キャリブレーションされた人物表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-11-27T17:12:43Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。