NearID: Identity Representation Learning via Near-identity Distractors
Abstractの概要
本論文は、アイデンティティに焦点を当てたタスクで使用されるビジョンエンコーダにおける体系的な失敗モードを特定している。具体的には、埋め込みがオブジェクトのアイデンティティと背景コンテキストを絡み合わせてしまい、同じ背景に配置された視覚的に類似するが異なるオブジェクトが、真のクロスビューマッチよりも高いスコアを得てしまう問題である。この問題に対処するため、著者らはNearIDを提案する。これは、コンテキストを一致させた「近似アイデンティティ・ディストラクタ」を中心に構築されたフレームワークであり、アイデンティティを唯一の識別信号として分離する。このフレームワークは、4つの生成モデルから生成された19,386のアイデンティティと316,505のディストラクタからなるキュレーションされたデータセット、同一アイデンティティ>近似アイデンティティ・ディストラクタ>ランダムネガティブの順序を強制する二層対照損失、およびマージンベースの厳密な評価プロトコル(SSRおよびPA)で構成される。全エンコーダのファインチューニングではなく、SigLIP2バックボーンを凍結したまま、軽量なMAP射影ヘッド(全パラメータの約3.6%)のみを学習する手法を採用している。
新規性
主要な新規性は、コンテキストを一致させた近似アイデンティティ・ディストラクタ——意味的に類似するが異なるオブジェクトを参照画像と全く同じ背景にインペイントしたもの——を明示的に構築・使用することで、コンテキストのショートカットを排除し、表現が真にオブジェクトのアイデンティティをエンコードしているかを検証する点にある。本論文は、このデータ構築と、三層の類似度階層を強制する二成分対照目的関数(識別+ランキング正則化)、およびアイデンティティとコンテキストの絡み合いを定量化するために特別に設計されたマージンベースの評価プロトコルを組み合わせている。
成果
NearIDベンチマークにおいて、凍結SigLIP2ベースラインのSSRは30.74%に留まるのに対し、提案手法は99.17%のSSRおよび99.71%のPAを達成した。MTGパーツレベルベンチマークでは、SSRが0.0%(全標準エンコーダ)から35.0%に改善され、メトリック対オラクルのピアソン相関は0.180から0.465に向上した。DreamBench++では、メトリック対人間の相関が0.516から0.545に改善され、動物(+0.105)や人間(+0.065)を含む未知のカテゴリにも汎化することが示された。
論文の注目点
- NearIDは、近似アイデンティティ・ディストラクタが参照画像と全く同じ背景を共有するコンテキスト一致評価設定を定義し、標準的なビジョンエンコーダにおける背景駆動の体系的な失敗を露呈させる(例:SigLIP2のSSRはわずか30.74%)。
- 学習手法は、凍結したSigLIP2バックボーンと軽量なMAP射影ヘッド(パラメータの約3.6%)を使用し、全てのネガティブを均等に扱うのではなく、構造化された三層類似度階層を強制する二成分損失(識別+ランキング正則化)を採用している。
- アブレーション実験により、標準的な対照損失では不十分であり(InfoNCEのSSRは60.97%に留まる)、過度に積極的な階層的損失は表現の崩壊を引き起こすリスクがある(Circle+RankingのM–Hは0.141に低下)一方、NearID損失はほぼ完璧な識別性能(SSR 99.17%)と人間との整合性の維持(M–H = 0.545)をバランスよく実現することが示された。
参考リンク
- arXiv: https://arxiv.org/abs/2604.01973v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2604.01973v1
- Hugging Face Papers: https://huggingface.co/papers/2604.01973
- Project: https://gorluxor.github.io/NearID/