論文の概要: Following the Clues: Experiments on Person Re-ID using Cross-Modal Intelligence
- arxiv url: http://arxiv.org/abs/2507.01504v1
- Date: Wed, 02 Jul 2025 09:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.122199
- Title: Following the Clues: Experiments on Person Re-ID using Cross-Modal Intelligence
- Title(参考訳): 追従:クロスモーダルインテリジェンスを用いた人物Re-IDの実験
- Authors: Robert Aufschläger, Youssef Shoeb, Azarm Nowzad, Michael Heigl, Fabian Bally, Martin Schramm,
- Abstract要約: CRIDは、Large Vision-Language Models、Graph Attention Networks、そして表現学習を組み合わせたクロスプラットフォームフレームワークである。
提案手法は,解釈可能な特徴の同定と活用に重点を置いており,低レベルの外観的手がかりを超えた意味論的意味的PIIの検出を可能にする。
本実験は,実運用におけるデータ横断型Re-IDシナリオの性能向上を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The collection and release of street-level recordings as Open Data play a vital role in advancing autonomous driving systems and AI research. However, these datasets pose significant privacy risks, particularly for pedestrians, due to the presence of Personally Identifiable Information (PII) that extends beyond biometric traits such as faces. In this paper, we present cRID, a novel cross-modal framework combining Large Vision-Language Models, Graph Attention Networks, and representation learning to detect textual describable clues of PII and enhance person re-identification (Re-ID). Our approach focuses on identifying and leveraging interpretable features, enabling the detection of semantically meaningful PII beyond low-level appearance cues. We conduct a systematic evaluation of PII presence in person image datasets. Our experiments show improved performance in practical cross-dataset Re-ID scenarios, notably from Market-1501 to CUHK03-np (detected), highlighting the framework's practical utility. Code is available at https://github.com/RAufschlaeger/cRID.
- Abstract(参考訳): Open Dataとしてのストリートレベルの記録の収集とリリースは、自律走行システムの進歩とAI研究において重要な役割を担っている。
しかし、これらのデータセットは、特に歩行者にとって、顔のような生体的特徴を超えた個人識別情報(PII)が存在するため、重大なプライバシーリスクを引き起こす。
本稿では、大規模視覚言語モデル、グラフ注意ネットワーク、表現学習を組み合わせた新しいクロスモーダルフレームワークであるcRIDを紹介し、PIIのテキスト記述可能な手がかりを検出し、人物再識別(Re-ID)を強化する。
提案手法は,解釈可能な特徴の同定と活用に重点を置いており,低レベルの外観的手がかりを超えた意味論的意味的PIIの検出を可能にする。
個人画像データセットにおけるPIIの存在を体系的に評価する。
実験の結果,特に Market-1501 から CUHK03-np (検出) まで,実用的なデータ集合 Re-ID シナリオの性能が向上し,フレームワークの実用性を強調した。
コードはhttps://github.com/RAufschlaeger/cRID.comで入手できる。
関連論文リスト
- Multilinear subspace learning for person re-identification based fusion of high order tensor features [2.03240755905453]
PRe-IDは、カメラネットワークで既に検出された標的個人を特定し追跡することを目的としている。
この目的のために、CNN(Conal Neural Networks)とLOMO(Local Maximal Occurrence)という2つの強力な特徴が多次元データに基づいてモデル化されている。
新しいテンソル融合スキームを導入し、これら2種類の特徴を1つのテンソルに活用する。
論文 参考訳(メタデータ) (2025-05-09T23:39:27Z) - Keypoint Promptable Re-Identification [76.31113049256375]
Occluded Person Re-Identification (ReID) は、その外見に基づいて隠蔽された個人をマッチングするメトリクス学習タスクである。
本稿では、入力バウンディングボックスを意味キーポイントの集合で明示的に補完する新しいReID問題の定式化であるKeypoint Promptable ReID(KPR)を紹介する。
我々は4つの人気のあるReIDベンチマークのためのカスタムキーポイントラベルをリリースした。人物検索の実験だけでなく、ポーズトラッキングの実験も、我々の手法が従来の最先端手法を体系的に超越していることを示す。
論文 参考訳(メタデータ) (2024-07-25T15:20:58Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Using Skew to Assess the Quality of GAN-generated Image Features [3.300324211572204]
Fr'echet Inception Distance (FID)は、その概念的単純さ、高速な計算時間、人間の知覚との強い相関により広く採用されている。
本稿では、画像特徴データにおける第3のモーメントの重要性を考察し、この情報を用いて新しい尺度を定義し、Skew Inception Distance (SID) と呼ぶ。
論文 参考訳(メタデータ) (2023-10-31T17:05:02Z) - Data-Driven but Privacy-Conscious: Pedestrian Dataset De-identification
via Full-Body Person Synthesis [16.394031759681678]
ペデストリアンデータセットの復号化タスクを動機付け,導入する。
PDIは、所定の非識別法に対して、非識別度とダウンストリームタスクトレーニング性能を評価する。
私たちのデータは、プライバシを意識した方法で、合成から実際のパフォーマンスギャップを狭めることができるかを示します。
論文 参考訳(メタデータ) (2023-06-20T17:39:24Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Benchmarking person re-identification datasets and approaches for
practical real-world implementations [1.0079626733116613]
人物再識別(Re-ID)は注目されている。
しかし、そのようなRe-IDモデルが新しい都市や環境に配備される場合、セキュリティカメラのネットワーク内の人々を探すタスクは、重要なドメインシフトに直面している可能性が高い。
本稿では、ライブオペレーションにおける教師なしデプロイメントに適したデータセットの評価方法について、Re-IDアプローチとトレーニングデータセットの完全な評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T03:45:38Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Unsupervised Pre-training for Person Re-identification [90.98552221699508]
大規模無ラベル人物再識別(Re-ID)データセットLUPersonを提案する。
学習者のRe-ID特徴表現の一般化能力を向上させるために,教師なし事前学習を初めて行おうとする。
論文 参考訳(メタデータ) (2020-12-07T14:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。