論文の概要: CLIP-HandID: Vision-Language Model for Hand-Based Person Identification
- arxiv url: http://arxiv.org/abs/2506.12447v1
- Date: Sat, 14 Jun 2025 10:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.203147
- Title: CLIP-HandID: Vision-Language Model for Hand-Based Person Identification
- Title(参考訳): CLIP-HandID:手動人物識別のための視覚言語モデル
- Authors: Nathanael L. Baisa, Babu Pallam, Amudhavel Jayavel,
- Abstract要約: 本稿では,犯罪捜査に特化して設計された手動画像に基づく人物識別への新たなアプローチを提案する。
この手法は、性的虐待のような重大犯罪において特に有用であり、手動画像が利用可能な唯一の証拠であることが多い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new approach to person identification based on hand images, designed specifically for criminal investigations. The method is particularly valuable in serious crimes like sexual abuse, where hand images are often the sole identifiable evidence available. Our proposed method, CLIP-HandID, leverages pre-trained foundational vision-language model, particularly CLIP, to efficiently learn discriminative deep feature representations from hand images given as input to the image encoder of CLIP using textual prompts as semantic guidance. We propose to learn pseudo-tokens that represent specific visual contexts or appearance attributes using textual inversion network since labels of hand images are indexes instead text descriptions. The learned pseudo-tokens are incorporated into textual prompts which are given as input to the text encoder of the CLIP to leverage its multi-modal reasoning to enhance its generalization for identification. Through extensive evaluations on two large, publicly available hand datasets with multi-ethnic representation, we show that our method substantially surpasses existing approaches.
- Abstract(参考訳): 本稿では,犯罪捜査に特化して設計された手動画像に基づく人物識別への新たなアプローチを提案する。
この手法は、性的虐待のような重大犯罪において特に有用であり、手動画像が利用可能な唯一の証拠であることが多い。
提案手法であるCLIP-HandIDは,テキストプロンプトを意味指導として用い,CLIPのイメージエンコーダへの入力として与えられた手動画像から,事前学習した基礎視覚言語モデル(特にCLIP)を効率的に学習する。
そこで本稿では,手動画像のラベルがテキスト記述ではなくインデックスであるため,テキストインバージョンネットワークを用いて,特定の視覚的コンテキストや外観属性を表す擬似トークンを学習する。
学習された擬似トークンは、CLIPのテキストエンコーダへの入力として与えられるテキストプロンプトに組み込まれ、そのマルチモーダル推論を活用して識別の一般化を強化する。
マルチエスニックな表現を持つ2つの大規模かつ一般公開されたハンドデータセットの広範な評価を通じて,本手法が既存のアプローチを大幅に上回っていることを示す。
関連論文リスト
- Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Attention based End to end network for Offline Writer Identification on Word level data [3.5829161769306244]
注意駆動型畳み込みニューラルネットワーク(CNN)に基づく著者識別システムを提案する。
このシステムは、単語画像から抽出された断片として知られる画像セグメントを利用して、ピラミッドベースの戦略を用いて訓練されている。
提案アルゴリズムの有効性を3つのベンチマークデータベースで評価した。
論文 参考訳(メタデータ) (2024-04-11T09:41:14Z) - Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - CLIPTER: Looking at the Bigger Picture in Scene Text Recognition [10.561377899703238]
私たちは、CLIPのような現代視覚言語モデルの能力を利用して、作物ベースの認識者にシーンレベルの情報を提供する。
我々は,視覚言語モデルから得られた画像全体の表現を,クロスアテンションゲート機構を介して認識語レベルの特徴と融合させることにより,これを実現する。
論文 参考訳(メタデータ) (2023-01-18T12:16:19Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。