論文の概要: Dynamic Textual Prompt For Rehearsal-free Lifelong Person Re-identification
- arxiv url: http://arxiv.org/abs/2411.06023v1
- Date: Sat, 09 Nov 2024 00:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:30.524838
- Title: Dynamic Textual Prompt For Rehearsal-free Lifelong Person Re-identification
- Title(参考訳): リハーサルなし長寿者再識別のための動的テキストプロンプト
- Authors: Hongyu Chen, Bingliang Jiao, Wenxuan Wang, Peng Wang,
- Abstract要約: 生涯にわたる人物の再識別は、カメラを越えて人々を認識し、継続的なデータストリームから新たな知識を統合する。
主な課題は、パラメータの更新とドメインシフトに起因する破滅的な忘れに対処することである。
本稿では,テキスト記述をガイダンスとして用いて,サンプルを保持せずにドメイン間の不変性を学習するReIDモデルを提案する。
- 参考スコア(独自算出の注目度): 30.782126710974165
- License:
- Abstract: Lifelong person re-identification attempts to recognize people across cameras and integrate new knowledge from continuous data streams. Key challenges involve addressing catastrophic forgetting caused by parameter updating and domain shift, and maintaining performance in seen and unseen domains. Many previous works rely on data memories to retain prior samples. However, the amount of retained data increases linearly with the number of training domains, leading to continually increasing memory consumption. Additionally, these methods may suffer significant performance degradation when data preservation is prohibited due to privacy concerns. To address these limitations, we propose using textual descriptions as guidance to encourage the ReID model to learn cross-domain invariant features without retaining samples. The key insight is that natural language can describe pedestrian instances with an invariant style, suggesting a shared textual space for any pedestrian images. By leveraging this shared textual space as an anchor, we can prompt the ReID model to embed images from various domains into a unified semantic space, thereby alleviating catastrophic forgetting caused by domain shifts. To achieve this, we introduce a task-driven dynamic textual prompt framework in this paper. This model features a dynamic prompt fusion module, which adaptively constructs and fuses two different textual prompts as anchors. This effectively guides the ReID model to embed images into a unified semantic space. Additionally, we design a text-visual feature alignment module to learn a more precise mapping between fine-grained visual and textual features. We also developed a learnable knowledge distillation module that allows our model to dynamically balance retaining existing knowledge with acquiring new knowledge. Extensive experiments demonstrate that our method outperforms SOTAs under various settings.
- Abstract(参考訳): 生涯にわたる人物の再識別は、カメラを越えて人々を認識し、継続的なデータストリームから新たな知識を統合する。
主な課題は、パラメータの更新とドメインシフトによる破滅的な忘れに対処し、目に見えないドメインや見えないドメインのパフォーマンスを維持することである。
以前の多くの研究は、以前のサンプルを保持するためにデータメモリに依存していた。
しかし、保持データ量はトレーニングドメイン数とともに直線的に増加し、メモリ消費が継続的に増加する。
さらに、プライバシー上の懸念からデータ保存が禁止されると、これらの手法は大幅に性能低下する可能性がある。
これらの制約に対処するために、サンプルを保持することなくドメイン間の不変性を学習するようReIDモデルに促すためのガイダンスとしてテキスト記述を使うことを提案する。
重要な洞察は、自然言語が不変スタイルで歩行者のインスタンスを記述することができ、歩行者画像の共有テキスト空間が提案されることである。
この共有テキスト空間をアンカーとして活用することにより、ReIDモデルに様々なドメインからのイメージを統一的なセマンティック空間に埋め込むことで、ドメインシフトによる破滅的な忘れを軽減できる。
そこで本稿では,タスク駆動型動的テキストプロンプトフレームワークを提案する。
このモデルは動的プロンプト融合モジュールを特徴とし、2つの異なるテキストプロンプトをアンカーとして適応的に構成し融合する。
これにより、ReIDモデルを効果的に誘導し、イメージを統一されたセマンティック空間に埋め込む。
さらに,細かな視覚的特徴とテキスト的特徴のより正確なマッピングを学習するために,テキスト視覚的特徴アライメントモジュールを設計する。
また,既存の知識の保持と新たな知識の獲得を動的にバランスさせる学習可能な知識蒸留モジュールを開発した。
大規模な実験により,本手法は様々な条件下でSOTAよりも優れていることが示された。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - Few-shot Image Generation via Style Adaptation and Content Preservation [60.08988307934977]
我々は、GAN転送に画像翻訳モジュールを導入し、モジュールはジェネレータにスタイルとコンテンツを分離するように教える。
我々の手法はショット設定がほとんどない状態で、常に最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-11-30T01:16:53Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Towards Recognizing New Semantic Concepts in New Visual Domains [9.701036831490768]
我々は、これまで見えない視覚領域で機能し、新しいセマンティックな概念を認識できるディープアーキテクチャを設計することが重要であると論じている。
論文の第1部では、深層モデルが新しいビジュアルドメインに一般化できるように、異なるソリューションについて記述する。
第2部では、事前訓練された深層モデルの知識を、元のトレーニングセットにアクセスすることなく、新しい意味概念に拡張する方法を示す。
論文 参考訳(メタデータ) (2020-12-16T16:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。