論文の概要: Image Hashing via Cross-View Code Alignment in the Age of Foundation Models
- arxiv url: http://arxiv.org/abs/2510.27584v2
- Date: Mon, 03 Nov 2025 10:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 14:12:28.033401
- Title: Image Hashing via Cross-View Code Alignment in the Age of Foundation Models
- Title(参考訳): ファンデーションモデルにおけるクロスビューコードアライメントによるイメージハッシュ
- Authors: Ilyass Moummad, Kawtar Zaher, Hervé Goëau, Alexis Joly,
- Abstract要約: COCOVCA(Cross-View Code Alignment)は、バイナリコードを学ぶためのシンプルで統一された原則である。
HashCoderは、バランスの取れたコードを実行するための最終バッチ正規化レイヤを備えた軽量なハッシュネットワークである。
CroVCAは5つのトレーニングエポックで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 3.33876524834826
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficient large-scale retrieval requires representations that are both compact and discriminative. Foundation models provide powerful visual and multimodal embeddings, but nearest neighbor search in these high-dimensional spaces is computationally expensive. Hashing offers an efficient alternative by enabling fast Hamming distance search with binary codes, yet existing approaches often rely on complex pipelines, multi-term objectives, designs specialized for a single learning paradigm, and long training times. We introduce CroVCA (Cross-View Code Alignment), a simple and unified principle for learning binary codes that remain consistent across semantically aligned views. A single binary cross-entropy loss enforces alignment, while coding-rate maximization serves as an anti-collapse regularizer to promote balanced and diverse codes. To implement this, we design HashCoder, a lightweight MLP hashing network with a final batch normalization layer to enforce balanced codes. HashCoder can be used as a probing head on frozen embeddings or to adapt encoders efficiently via LoRA fine-tuning. Across benchmarks, CroVCA achieves state-of-the-art results in just 5 training epochs. At 16 bits, it particularly well-for instance, unsupervised hashing on COCO completes in under 2 minutes and supervised hashing on ImageNet100 in about 3 minutes on a single GPU. These results highlight CroVCA's efficiency, adaptability, and broad applicability.
- Abstract(参考訳): 効率的な大規模検索には、コンパクトかつ識別可能な表現が必要である。
基礎モデルは強力な視覚的およびマルチモーダルな埋め込みを提供するが、これらの高次元空間における近接探索は計算的に高価である。
Hashingは、バイナリコードによる高速ハミング距離探索を可能にすることで、効率的な代替手段を提供するが、既存のアプローチでは、複雑なパイプライン、複数長期的な目標、単一の学習パラダイムに特化した設計、長いトレーニング時間に依存することが多い。
CroVCA(Cross-View Code Alignment)は、セマンティックに整合したビュー間で一貫性のあるバイナリコードを学ぶための、シンプルで統一された原則である。
単一バイナリのクロスエントロピー損失はアライメントを強制する一方、符号化レートの最大化は、バランスよく多様なコードを促進するための反崩壊正則化として機能する。
この実装のために、バランスの取れたコードを実行するために、最終バッチ正規化層を備えた軽量なMLPハッシュネットワークであるHashCoderを設計した。
HashCoderは、凍結埋め込みの探索ヘッドとして、あるいはLoRAファインチューニングを介してエンコーダを効率的に適応するために使用することができる。
ベンチマーク全体では、CroVCAは最先端の結果を5つのトレーニングエポックで達成している。
特に16ビットの場合、例えばCOCOの教師なしハッシュは2分以内で完了し、ImageNet100のハッシュは1つのGPUで約3分で完了する。
これらの結果はCroVCAの効率性、適応性、幅広い適用性を強調している。
関連論文リスト
- Nested Hash Layer: A Plug-and-play Module for Multiple-length Hash Code Learning [61.095479786194836]
Nested Hash Layer (NHL) は、深い教師付きハッシュモデルのためのプラグイン・アンド・プレイモジュールである。
NHLは、複数の長さのハッシュコードをネスト構造で同時に生成する。
NHLは、様々な深層型ハッシュモデルに対して、トレーニング速度を約5~8倍に向上させる。
論文 参考訳(メタデータ) (2024-12-12T04:13:09Z) - CoopHash: Cooperative Learning of Multipurpose Descriptor and Contrastive Pair Generator via Variational MCMC Teaching for Supervised Image Hashing [42.67510119856105]
GAN(Generative Adversarial Networks)のような生成モデルは、画像ハッシュモデルで合成データを生成することができる。
GANは訓練が難しいため、ハッシュアプローチが生成モデルとハッシュ関数を共同で訓練するのを防ぐことができる。
本稿では,エネルギーをベースとした協調学習に基づく新しい協調ハッシュネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-09T15:42:36Z) - One Loss for All: Deep Hashing with a Single Cosine Similarity based
Learning Objective [86.48094395282546]
ディープハッシュモデルは通常、学習されたバイナリハッシュコードの識別と量子化エラーの最小化という2つの学習目標を持つ。
本稿では,1つの学習目的しか持たない新しい深層ハッシュモデルを提案する。
我々のモデルは,3つの大規模インスタンス検索ベンチマークにおいて,最先端のマルチロスハッシュモデルより優れている。
論文 参考訳(メタデータ) (2021-09-29T14:27:51Z) - Deep Hashing with Hash-Consistent Large Margin Proxy Embeddings [65.36757931982469]
画像ハッシュコードは、分類または検索のために訓練された畳み込みニューラルネットワーク(CNN)の埋め込みをバイナライズすることによって生成される。
この曖昧さを解消するために、固定されたプロキシ(CNN分類層の重み)の使用が提案されている。
得られたHCLMプロキシはハッシュ単位の飽和を促進することが示され、小さな二項化誤差が保証される。
論文 参考訳(メタデータ) (2020-07-27T23:47:43Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。