論文の概要: Simple Projection Variants Improve ColBERT Performance
- arxiv url: http://arxiv.org/abs/2510.12327v1
- Date: Tue, 14 Oct 2025 09:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.270167
- Title: Simple Projection Variants Improve ColBERT Performance
- Title(参考訳): ColBERTのパフォーマンスを改善する単純な投影変数
- Authors: Benjamin Clavié, Sean Lee, Rikiya Takehi, Aamir Shakir, Makoto P. Kato,
- Abstract要約: ColBERTは、個々のベクトルの次元性を減少させるために、一層線形射影を体系的に使用する。
このような単純な線型射影は、非臨界であるとしても、この設定に固有の制限があることが示される。
提案手法は,ColBERTモデルの下流性能に有意な影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 3.030360847467305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-vector dense retrieval methods like ColBERT systematically use a single-layer linear projection to reduce the dimensionality of individual vectors. In this study, we explore the implications of the MaxSim operator on the gradient flows of the training of multi-vector models and show that such a simple linear projection has inherent, if non-critical, limitations in this setting. We then discuss the theoretical improvements that could result from replacing this single-layer projection with well-studied alternative feedforward linear networks (FFN), such as deeper, non-linear FFN blocks, GLU blocks, and skip-connections, could alleviate these limitations. Through the design and systematic evaluation of alternate projection blocks, we show that better-designed final projections positively impact the downstream performance of ColBERT models. We highlight that many projection variants outperform the original linear projections, with the best-performing variants increasing average performance on a range of retrieval benchmarks across domains by over 2 NDCG@10 points. We then conduct further exploration on the individual parameters of these projections block in order to understand what drives this empirical performance, highlighting the particular importance of upscaled intermediate projections and residual connections. As part of these ablation studies, we show that numerous suboptimal projection variants still outperform the traditional single-layer projection across multiple benchmarks, confirming our hypothesis. Finally, we observe that this effect is consistent across random seeds, further confirming that replacing the linear layer of ColBERT models is a robust, drop-in upgrade.
- Abstract(参考訳): ColBERTのような多ベクトル密度検索法は、個々のベクトルの次元性を低減するために、一層線形射影を体系的に利用する。
本研究では,マルチベクトルモデルのトレーニングの勾配流に対するMaxSim演算子の影響を考察し,そのような単純な線形射影が,非臨界であるならば,この設定に制約が存在することを示す。
次に、この単層投影を、より深い非線形FFNブロック、GLUブロック、スキップ接続など、よく研究された代替フィードフォワード線形ネットワーク(FFN)に置き換えることで生じる理論的改善について議論する。
代替射影ブロックの設計と体系的評価を通じて、より優れた設計された最終射影がColBERTモデルの下流性能に肯定的な影響を及ぼすことを示す。
NDCG@10 点以上の領域にまたがるベンチマークにおいて,多くの射影変種が元の線形射影より優れており,最も性能の良い変種は平均的な性能を向上している。
次に、これらの射影ブロックの個々のパラメータについてさらなる探索を行い、この経験的性能を駆動する要因を解明し、高スケールの中間射影と残差接続の重要性を強調した。
これらのアブレーション研究の一環として、多くの準最適射影変種が複数のベンチマークで従来の単層射影よりも優れており、我々の仮説が裏付けられている。
最後に、この効果は無作為な種間で一致していることを確認し、さらにColBERTモデルの線形層を置き換えることは堅牢でドロップインのアップグレードであることを確認した。
関連論文リスト
- Directional Gradient Projection for Robust Fine-Tuning of Foundation Models [25.04763038570959]
ディディショナル・グラディエント・プロジェクション(DiGraP)は、グラデーションからブリッジの正規化や多目的最適化に至るまでの方向性情報を階層的に学習可能な手法である。
まず,画像分類による視覚質問回答 (VQA) ベンチマークの分析により,一様・多モードのギャップを埋める。
実験結果から,DiGraPは画像分類やVQAタスクにおいて,識別的,生成的バックボーンで既存のベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-02-21T19:31:55Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - ParetoFlow: Guided Flows in Multi-Objective Optimization [12.358524770639136]
オフライン多目的最適化(MOO)では、関連するラベルのオフラインデータセットを同時に複数の目的に活用する。
最近のイテレーションは主に進化的最適化とベイズ最適化を採用しており、データに固有の生成能力に限定的に注意が向けられている。
本手法は,様々なタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T21:14:18Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Straightening Out the Straight-Through Estimator: Overcoming
Optimization Challenges in Vector Quantized Networks [35.6604960300194]
本研究は,ベクトル量子化を用いたニューラルネットワークのストレートスルー推定による学習課題について検討する。
トレーニング不安定の主な原因は,モデル埋め込みとコードベクトル分布の相違である。
この問題に寄与する要因として,コードブックの勾配幅やコミットメント損失の非対称性などを挙げる。
論文 参考訳(メタデータ) (2023-05-15T17:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。