論文の概要: Reproduction Beyond Benchmarks: ConstBERT and ColBERT-v2 Across Backends and Query Distributions
- arxiv url: http://arxiv.org/abs/2604.09982v2
- Date: Thu, 16 Apr 2026 04:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 13:43:04.472734
- Title: Reproduction Beyond Benchmarks: ConstBERT and ColBERT-v2 Across Backends and Query Distributions
- Title(参考訳): ベンチマークを越えた再現:ConstBERTとColBERT-v2のバックエンドとクエリ分散
- Authors: Utshab Kumar Ghosh, Ashish David, Shubham Chatterjee,
- Abstract要約: ColBERT-v2 と ConstBERT を5次元にわたって評価した。
ConstBERTはMS-MARCOで0.05% MRR@10で再現されるが、どちらのモデルも長文クエリで86-97%の減少を示している。
- 参考スコア(独自算出の注目度): 3.976291254896486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducibility must validate architectural robustness, not just numerical accuracy. We evaluate ColBERT-v2 and ConstBERT across five dimensions, finding that while ConstBERT reproduces within 0.05% MRR@10 on MS-MARCO, both models show a drop of 86-97% on long, narrative queries (TREC ToT 2025). Ablations prove this failure is architectural: performance plateaus at 20 words because the MaxSim operator's uniform token weighting cannot distinguish signal from filler noise. Furthermore, undocumented backend parameters create an 8-point gap due to ConstBERT's sparse centroid coverage, and fine-tuning with 3x more data actually degrades performance by up to 29%. We conclude that architectural constraints in multi-vector retrieval cannot be overcome by adaptation alone. Code: https://github.com/utshabkg/multi-vector-reproducibility.
- Abstract(参考訳): 再現性は、単に数値的な精度ではなく、アーキテクチャの堅牢性を検証する必要がある。
ColBERT-v2 と ConstBERT を5次元にわたって評価した結果,ConstBERT は MS-MARCO 上で 0.05% MRR@10 で再現されているのに対し,長文クエリ (TREC ToT 2025) では 86-97% の減少を示した。
マックスシム演算子の均一なトークン重み付けは、信号とフィラーノイズを区別できないため、性能は20ワードに低下する。
さらに、文書化されていないバックエンドパラメータは、ConstBERTのスムーズなセントロイドカバレッジによる8ポイントのギャップを生じさせ、さらに3倍のデータで微調整することで、パフォーマンスを最大29%低下させる。
マルチベクトル検索におけるアーキテクチャ上の制約は適応だけでは克服できないと結論付けている。
コード:https://github.com/utshabkg/multi-vector-reproducibility。
関連論文リスト
- TabiBERT: A Large-Scale ModernBERT Foundation Model and A Unified Benchmark for Turkish [0.7233065479782755]
TabiBERTはModernBERTアーキテクチャをベースとしたモノリンガルのトルコ語エンコーダである。
8,192トークンのコンテキスト長(16xオリジナルBERT)をサポートし、最大2.65倍のスピードアップを実現し、GPUメモリ使用量を削減する。
タビベンチで77.58を獲得し、BERTurkを1.62ポイント上回り、8つのカテゴリーのうち5つの最先端技術を確立した。
論文 参考訳(メタデータ) (2025-12-28T20:18:22Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever [6.221757399678299]
ColBERTの遅延相互作用評価は、クロスエンコーダに見られる共同クエリ文書の注意を近似する。
我々の新しいモデルであるJina-ColBERT-v2は、英語および多言語検索タスクで高い性能を示す。
論文 参考訳(メタデータ) (2024-08-29T16:21:00Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT [48.35407228760352]
検索パイプラインは、文書が長い(例えば10Kトークン以上)ドメインや、関連する文書を識別する場合は、テキスト全体にわたって情報を合成する必要がある。
これらのドメインに適した長文検索エンコーダを開発する。
LoCoV1は,チャンキングが不可能か有効でない場合の長文検索のための新しい12タスクベンチマークである。
次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
論文 参考訳(メタデータ) (2024-02-12T06:43:52Z) - EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up
Knowledge Distillation [82.3956677850676]
事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。
サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
論文 参考訳(メタデータ) (2021-09-15T11:25:39Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。