論文の概要: Training-Free Personalization via Retrieval and Reasoning on Fingerprints
- arxiv url: http://arxiv.org/abs/2503.18623v1
- Date: Mon, 24 Mar 2025 12:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:46.106834
- Title: Training-Free Personalization via Retrieval and Reasoning on Fingerprints
- Title(参考訳): 指紋検索と推論による学習自由なパーソナライズ
- Authors: Deepayan Das, Davide Talon, Yiming Wang, Massimiliano Mancini, Elisa Ricci,
- Abstract要約: 視覚言語モデル(VLM)はマルチモーダル推論に大きな改善をもたらしたが、ユーザ固有の概念を理解するのに苦戦している。
本稿では, VLMの内部知識を活用して, パーソナライズのための検索と推論(R2P)を提案する。
R2Pは、様々な下流タスクにおける最先端のアプローチを一貫して上回る。
- 参考スコア(独自算出の注目度): 31.025439143093585
- License:
- Abstract: Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダル推論に大きな改善をもたらしたが、ユーザ固有の概念を理解するのに苦戦している。
既存のパーソナライズ手法はこの制限に対処するが、トレーニング手順に大きく依存する。
私たちは既存の仕事から離れ、パーソナライゼーションの文脈でトレーニングなしの設定を初めて探求します。
本稿では, VLMの内部知識を活用して, パーソナライズのための検索と推論(R2P)を提案する。
まず、VLMを利用して概念指紋(キー属性)を抽出し、セマンティッククラス内で概念を一意に定義する。
クエリが到着すると、最もよく似た指紋が検索され、チェーン・オブ・レアソンによって収集される。
幻覚のリスクを低減するため、属性レベルでのクロスモーダル検証によりスコアが検証される:スコア間の相違がある場合、R2Pはペアワイズマルチモーダルマッチングによりコンセプトアソシエーションを洗練し、検索された指紋とその画像がクエリと直接比較される。
2つの公開ベンチマークと新たに導入されたデータセットであるPerVA(Personal Concepts with Visual Ambiguity)でR2Pを検証する。
R2Pは、すべてのベンチマークで様々なダウンストリームタスクに対する最先端のアプローチを一貫して上回っている。
コードは受理後利用可能になる。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Keypoint Promptable Re-Identification [76.31113049256375]
Occluded Person Re-Identification (ReID) は、その外見に基づいて隠蔽された個人をマッチングするメトリクス学習タスクである。
本稿では、入力バウンディングボックスを意味キーポイントの集合で明示的に補完する新しいReID問題の定式化であるKeypoint Promptable ReID(KPR)を紹介する。
我々は4つの人気のあるReIDベンチマークのためのカスタムキーポイントラベルをリリースした。人物検索の実験だけでなく、ポーズトラッキングの実験も、我々の手法が従来の最先端手法を体系的に超越していることを示す。
論文 参考訳(メタデータ) (2024-07-25T15:20:58Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - "This is my unicorn, Fluffy": Personalizing frozen vision-language
representations [31.618829097336047]
パーソナライズドビジョン・アンド・ランゲージ(PerVL)と呼ばれる新しい学習環境を導入する。
PerVLでは、ダウンストリームタスクとは独立してパーソナライズされた概念を学ぶ必要がある。
本稿では,いくつかの例からパーソナライズされた視覚概念を学習し,画像検索やセマンティックセグメンテーションに効果的に適用できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:58:11Z) - Pose-guided Visible Part Matching for Occluded Person ReID [80.81748252960843]
本稿では、ポーズ誘導による特徴の識別を共同で学習し、その部分の可視性を自己判断する Pose-Guided Visible Part Matching (PVPM) 法を提案する。
実験結果から,提案手法は最先端手法と競合する性能を示した。
論文 参考訳(メタデータ) (2020-04-01T04:36:51Z) - A Convolutional Baseline for Person Re-Identification Using Vision and
Language Descriptions [24.794592610444514]
現実世界の監視シナリオでは、クエリされた人に関する視覚的な情報は頻繁に提供されない。
クロスエントロピー損失によって制御される2つのストリームディープ畳み込みニューラルネットワークフレームワークを示す。
学習した視覚表現は、単一のモダリティシステムと比較して、より堅牢で、検索時に22%向上する。
論文 参考訳(メタデータ) (2020-02-20T10:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。