論文の概要: SCING:Towards More Efficient and Robust Person Re-Identification through Selective Cross-modal Prompt Tuning
- arxiv url: http://arxiv.org/abs/2507.00506v1
- Date: Tue, 01 Jul 2025 07:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.461049
- Title: SCING:Towards More Efficient and Robust Person Re-Identification through Selective Cross-modal Prompt Tuning
- Title(参考訳): SCING:Selective Cross-modal Prompt Tuningによるより効率的でロバストな人物再同定に向けて
- Authors: Yunfei Xie, Yuxuan Cheng, Juncheng Wu, Haoyu Zhang, Yuyin Zhou, Shoudong Han,
- Abstract要約: Selective Cross-modal Prompt Tuning (SCING) というフレームワークを提案する。
我々のフレームワークは、効率的な推論を維持しながら重いアダプタを排除し、性能と計算オーバーヘッドの最適なトレードオフを実現する。
- 参考スコア(独自算出の注目度): 17.104905795008555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in adapting vision-language pre-training models like CLIP for person re-identification (ReID) tasks often rely on complex adapter design or modality-specific tuning while neglecting cross-modal interaction, leading to high computational costs or suboptimal alignment. To address these limitations, we propose a simple yet effective framework named Selective Cross-modal Prompt Tuning (SCING) that enhances cross-modal alignment and robustness against real-world perturbations. Our method introduces two key innovations: Firstly, we proposed Selective Visual Prompt Fusion (SVIP), a lightweight module that dynamically injects discriminative visual features into text prompts via a cross-modal gating mechanism. Moreover, the proposed Perturbation-Driven Consistency Alignment (PDCA) is a dual-path training strategy that enforces invariant feature alignment under random image perturbations by regularizing consistency between original and augmented cross-modal embeddings. Extensive experiments are conducted on several popular benchmarks covering Market1501, DukeMTMC-ReID, Occluded-Duke, Occluded-REID, and P-DukeMTMC, which demonstrate the impressive performance of the proposed method. Notably, our framework eliminates heavy adapters while maintaining efficient inference, achieving an optimal trade-off between performance and computational overhead. The code will be released upon acceptance.
- Abstract(参考訳): 人の再識別(ReID)タスクにCLIPのような視覚言語による事前学習モデルを適用する最近の進歩は、しばしば複雑なアダプタ設計やモダリティ固有のチューニングに依存し、相互の相互作用を無視し、高い計算コストや準最適アライメントをもたらす。
これらの制約に対処するため,Selective Cross-modal Prompt Tuning (SCING) というシンプルなフレームワークを提案する。
まず,識別的視覚特徴をテキストプロンプトに動的に注入する軽量モジュールであるSelective Visual Prompt Fusion(SVIP)を提案する。
さらに、提案した摂動駆動整合性調整(PDCA)は、原像と拡張モードの埋め込みとの整合性を規則化することにより、ランダムな画像摂動の下で不変な特徴アライメントを強制するデュアルパストレーニング戦略である。
Market1501、DukeMTMC-ReID、Occluded-Duke、Occluded-REID、P-DukeMTMCを網羅した大規模な実験を行い、提案手法の優れた性能を実証した。
特に,本フレームワークでは,効率的な推論を維持しながら重いアダプタを排除し,性能と計算オーバーヘッドの最適なトレードオフを実現する。
コードは受理時にリリースされます。
関連論文リスト
- Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification [80.83325513157637]
Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。
理想的なプラトン表現空間を構築することを目的とした,OTAT(Optimal Transport Adapter Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T07:04:24Z) - Zero-Shot Interactive Text-to-Image Retrieval via Diffusion-Augmented Representations [7.439049772394586]
Diffusion Augmented Retrieval (DAR)はMLLMの微調整を完全に回避したパラダイムシフトフレームワークである。
DARは、Diffusion Model (DM) ベースの視覚合成を用いて、LLM(Large Language Model) 誘導クエリ改善をシナジし、文脈的にリッチな中間表現を生成する。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Dynamic Modality-Camera Invariant Clustering for Unsupervised Visible-Infrared Person Re-identification [46.63906666692304]
教師なし学習の可視的人物再識別(USL-VI-ReID)は、教師付き手法よりも柔軟で費用対効果の高い代替手段を提供する。
既存の方法は単純にモダリティ固有のサンプルをクラスタリングし、インスタンス・クラスタ間またはクラスタ・クラスタ間相互関連を達成するために強力なアソシエーション技術を用いる。
我々は,USL-VI-ReIDのための動的モダリティ・カメラ不変クラスタリング(DMIC)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T09:31:03Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。