論文の概要: Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline
- arxiv url: http://arxiv.org/abs/2412.21009v1
- Date: Mon, 30 Dec 2024 15:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:08.179875
- Title: Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline
- Title(参考訳): アイデンティティを意識したクロスモーダル検索に向けて:データセットとベースライン
- Authors: Nicola Messina, Lucia Vadicamo, Leo Maltese, Claudio Gennaro,
- Abstract要約: アイデンティティを意識したクロスモーダル検索は、自然言語クエリに基づいて、特定の文脈の人物の画像を取得することを目的としている。
我々は、広く使われているCOCOデータセットから派生した新しいデータセットCOCO Person FaceSwapを導入し、VGGFace2のディープフェイク生成顔に富んだ。
我々の貢献は、長い尾のアイデンティティと文脈のニュアンスを認識することができるより堅牢なクロスモーダル検索システムの基礎を築いた。
- 参考スコア(独自算出の注目度): 2.8569775342667247
- License:
- Abstract: Recent advancements in deep learning have significantly enhanced content-based retrieval methods, notably through models like CLIP that map images and texts into a shared embedding space. However, these methods often struggle with domain-specific entities and long-tail concepts absent from their training data, particularly in identifying specific individuals. In this paper, we explore the task of identity-aware cross-modal retrieval, which aims to retrieve images of persons in specific contexts based on natural language queries. This task is critical in various scenarios, such as for searching and browsing personalized video collections or large audio-visual archives maintained by national broadcasters. We introduce a novel dataset, COCO Person FaceSwap (COCO-PFS), derived from the widely used COCO dataset and enriched with deepfake-generated faces from VGGFace2. This dataset addresses the lack of large-scale datasets needed for training and evaluating models for this task. Our experiments assess the performance of different CLIP variations repurposed for this task, including our architecture, Identity-aware CLIP (Id-CLIP), which achieves competitive retrieval performance through targeted fine-tuning. Our contributions lay the groundwork for more robust cross-modal retrieval systems capable of recognizing long-tail identities and contextual nuances. Data and code are available at https://github.com/mesnico/IdCLIP.
- Abstract(参考訳): 近年のディープラーニングの進歩は、特にCLIPのような画像やテキストを共有埋め込み空間にマッピングするモデルを通じて、コンテンツベースの検索方法を大幅に強化している。
しかし、これらの手法は、訓練データ、特に特定の個人を特定する際に、ドメイン固有の実体や長い尾の概念に苦しむことが多い。
本稿では,自然言語クエリに基づく特定の文脈の人物画像の検索を目的とした,アイデンティティ対応のクロスモーダル検索の課題について検討する。
このタスクは、パーソナライズされたビデオコレクションの検索や閲覧、あるいは全国の放送局が管理する大規模なオーディオ映像アーカイブなど、様々なシナリオにおいて重要である。
我々は、広く使われているCOCOデータセットから派生した新しいデータセットCOCO Person FaceSwap (COCO-PFS)を導入し、VGGFace2のディープフェイク生成顔に富んだ。
このデータセットは、このタスクのモデルのトレーニングと評価に必要な大規模なデータセットの欠如に対処する。
本研究は,本課題に用いたCLIP変種(Id-CLIP)の性能評価を行う。
我々の貢献は、長い尾のアイデンティティと文脈のニュアンスを認識することができるより堅牢なクロスモーダル検索システムの基礎を築いた。
データとコードはhttps://github.com/mesnico/IdCLIPで入手できる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Benchmarking person re-identification datasets and approaches for
practical real-world implementations [1.0079626733116613]
人物再識別(Re-ID)は注目されている。
しかし、そのようなRe-IDモデルが新しい都市や環境に配備される場合、セキュリティカメラのネットワーク内の人々を探すタスクは、重要なドメインシフトに直面している可能性が高い。
本稿では、ライブオペレーションにおける教師なしデプロイメントに適したデータセットの評価方法について、Re-IDアプローチとトレーニングデータセットの完全な評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T03:45:38Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - End-to-end Person Search Sequentially Trained on Aggregated Dataset [1.9766522384767227]
本稿では,検出と特徴抽出を共同で計算するエンド・ツー・エンドのモデルを提案する。
コストのかかるIDアノテーションを使わずに、より多くの歩行者検出データセットを集約することで、共有機能マップがより汎用的であることを示す。
論文 参考訳(メタデータ) (2022-01-24T11:22:15Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Deep Multi-Facial Patches Aggregation Network For Facial Expression
Recognition [5.735035463793008]
深層多面的パッチアグリゲーションネットワークに基づく顔表情認識(FER)のアプローチを提案する。
ディープ機能は、ディープサブネットワークを使用して顔のパッチから学習され、表現分類のために1つのディープアーキテクチャに集約される。
論文 参考訳(メタデータ) (2020-02-20T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。