論文の概要: CRISP: Clustering Multi-Vector Representations for Denoising and Pruning
- arxiv url: http://arxiv.org/abs/2505.11471v1
- Date: Fri, 16 May 2025 17:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.770863
- Title: CRISP: Clustering Multi-Vector Representations for Denoising and Pruning
- Title(参考訳): CRISP: Denoising and Pruningのためのマルチベクタ表現のクラスタ化
- Authors: João Veneroso, Rajesh Jayaram, Jinmeng Rao, Gustavo Hernández Ábrego, Majid Hadian, Daniel Cer,
- Abstract要約: ColBERTのようなマルチベクターモデルは、コンテキスト化されたトークンレベルの埋め込みによってクエリやドキュメントを表現することによって、最先端のパフォーマンスを提供する。
このオーバーヘッドを軽減するための一般的なアプローチは、モデルのフリーズベクターをクラスタ化することであるが、この戦略の有効性は、これらの埋め込みの固有のクラスタビリティによって制限される。
本稿では,エンドツーエンドのトレーニングプロセス内で,本質的にクラスタリング可能な表現を直接学習する,新しいマルチベクタトレーニング手法CRISPを紹介する。
- 参考スコア(独自算出の注目度): 7.580000668015255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-vector models, such as ColBERT, are a significant advancement in neural information retrieval (IR), delivering state-of-the-art performance by representing queries and documents by multiple contextualized token-level embeddings. However, this increased representation size introduces considerable storage and computational overheads which have hindered widespread adoption in practice. A common approach to mitigate this overhead is to cluster the model's frozen vectors, but this strategy's effectiveness is fundamentally limited by the intrinsic clusterability of these embeddings. In this work, we introduce CRISP (Clustered Representations with Intrinsic Structure Pruning), a novel multi-vector training method which learns inherently clusterable representations directly within the end-to-end training process. By integrating clustering into the training phase rather than imposing it post-hoc, CRISP significantly outperforms post-hoc clustering at all representation sizes, as well as other token pruning methods. On the BEIR retrieval benchmarks, CRISP achieves a significant rate of ~3x reduction in the number of vectors while outperforming the original unpruned model. This indicates that learned clustering effectively denoises the model by filtering irrelevant information, thereby generating more robust multi-vector representations. With more aggressive clustering, CRISP achieves an 11x reduction in the number of vectors with only a $3.6\%$ quality loss.
- Abstract(参考訳): ColBERTのようなマルチベクターモデルは、複数のコンテキスト化されたトークンレベルの埋め込みによってクエリやドキュメントを表現することによって、最先端のパフォーマンスを提供する、ニューラルネットワーク検索(IR)における重要な進歩である。
しかし、この表現サイズの増加は記憶と計算のオーバーヘッドをかなり引き起こし、実際に広く採用されるのを妨げている。
このオーバーヘッドを軽減するための一般的なアプローチは、モデルのフリーズベクターをクラスタリングすることであるが、この戦略の有効性は、これらの埋め込みの固有のクラスタビリティによって根本的に制限されている。
本研究では,エンドツーエンドの学習プロセス内で直接クラスタリング可能な表現を学習する新しいマルチベクトル学習手法であるCRISP(Clustered Representations with Intrinsic Structure Pruning)を紹介する。
ポストホックではなく、トレーニングフェーズにクラスタリングを統合することで、CRISPは、すべての表現サイズでのポストホッククラスタリングや、他のトークンプルーニングメソッドよりも大幅に優れています。
BEIR のベンチマークでは、CRISP は元の未実行モデルを上回りながらベクター数の ~3倍の削減率を達成する。
このことは、学習したクラスタリングが無関係な情報をフィルタリングすることで、より堅牢なマルチベクター表現を生成することによって、モデルを効果的に認知することを示している。
よりアグレッシブなクラスタリングにより、CRISPはベクター数の11倍の削減を実現し、品質損失はわずか3.6\%である。
関連論文リスト
- Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。
最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。
いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-16T09:38:11Z) - Cluster Specific Representation Learning [1.6727186769396276]
広く応用されているにもかかわらず、善の表象の定義は確立されていない。
本稿では,データに固有のクラスタが存在する場合,各クラスタに固有の表現が必要であるという,ダウンストリームに依存しない定式化を提案する。
そこで我々は,クラスタ固有の表現とクラスタ割り当てを共同で学習するメタアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-12-04T16:59:37Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - CLC: Cluster Assignment via Contrastive Representation Learning [9.631532215759256]
コントラスト学習を用いてクラスタ割り当てを直接学習するコントラスト学習ベースのクラスタリング(CLC)を提案する。
完全なImageNetデータセットで53.4%の精度を実現し、既存のメソッドを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2023-06-08T07:15:13Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Exploring Non-Contrastive Representation Learning for Deep Clustering [23.546602131801205]
ディープクラスタリングのための非コントラスト表現学習は、負の例のない代表的手法であるBYOLに基づいている。
NCCは、すべてのクラスタが十分に分離され、クラスタ内の例がコンパクトな埋め込み空間を形成する。
ImageNet-1Kを含むいくつかのクラスタリングベンチマークデータセットの実験結果は、NCCが最先端の手法よりかなり優れていることを示している。
論文 参考訳(メタデータ) (2021-11-23T12:21:53Z) - Learning Statistical Representation with Joint Deep Embedded Clustering [2.1267423178232407]
StatDECは、共同統計表現学習とクラスタリングのための教師なしのフレームワークである。
実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡な画像クラスタリングの結果を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-09-11T09:26:52Z) - Image Clustering using an Augmented Generative Adversarial Network and
Information Maximization [9.614694312155798]
本稿では,GAN (Modified Generative Adversarial Network) と補助分類器からなるディープクラスタリングフレームワークを提案する。
提案手法は, CIFAR-10 と CIFAR-100 のクラスタリング手法を著しく上回り, STL10 と MNIST のデータセットと競合する。
論文 参考訳(メタデータ) (2020-11-08T22:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。