論文の概要: Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report
- arxiv url: http://arxiv.org/abs/2510.14880v1
- Date: Thu, 16 Oct 2025 17:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.958335
- Title: Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report
- Title(参考訳): mxbai-edge-colbert-v0 Tech Report
- Authors: Rikiya Takehi, Benjamin Clavié, Sean Lee, Aamir Shakir,
- Abstract要約: 我々はmxbai-edge-colbert-v0モデルについて、17Mと32Mの2つのパラメータ数で紹介する。
ダウンストリーム性能の面では、mxbai-edge-colbert-v0は特に有能な小型モデルであり、一般的な短文ベンチマークではColBERTv2を上回っている。
- 参考スコア(独自算出の注目度): 2.1066527560533514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce mxbai-edge-colbert-v0 models, at two different parameter counts: 17M and 32M. As part of our research, we conduct numerous experiments to improve retrieval and late-interaction models, which we intend to distill into smaller models as proof-of-concepts. Our ultimate aim is to support retrieval at all scales, from large-scale retrieval which lives in the cloud to models that can run locally, on any device. mxbai-edge-colbert-v0 is a model that we hope will serve as a solid foundation backbone for all future experiments, representing the first version of a long series of small proof-of-concepts. As part of the development of mxbai-edge-colbert-v0, we conducted multiple ablation studies, of which we report the results. In terms of downstream performance, mxbai-edge-colbert-v0 is a particularly capable small model, outperforming ColBERTv2 on common short-text benchmarks (BEIR) and representing a large step forward in long-context tasks, with unprecedented efficiency.
- Abstract(参考訳): 本研究では,mxbai-edge-colbert-v0モデルについて,パラメータ数17Mと32Mで紹介する。
本研究の一環として,検索モデルと遅延相互作用モデルの改善のための多数の実験を行った。
私たちの究極の目標は、クラウドに生息する大規模な検索から、任意のデバイス上でローカルに実行できるモデルまで、あらゆるスケールで検索をサポートすることです。
mxbai-edge-colbert-v0 は、全ての将来の実験の基盤となる基盤として機能し、一連の小さな概念実証の最初のバージョンを表すことを願っているモデルである。
我々はmxbai-edge-colbert-v0の開発の一環として,複数のアブレーション研究を行い,その結果を報告する。
ダウンストリーム性能の面では、mxbai-edge-colbert-v0は特に有能な小型モデルであり、一般的な短文ベンチマーク(BEIR)でColBERTv2より優れており、長文タスクにおける大きな進歩であり、前例のない効率性を示している。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models [58.6172667880028]
長文モデルの暗記能力を測定するために,左折曲線と呼ばれる新しい手法を提案する。
テストコーパスと実験環境に頑健であることの利点を, 忘れる曲線は有益であることを示す。
本測定は,RNN/SSMモデルの有効性を疑問視しながら,トランスフォーマー拡張手法の有効性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-07T03:38:27Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video
Prediction [46.687394176382746]
SISO(Single-In-Single-Out)アーキテクチャに基づいて,既存のビデオ予測手法がモデルを構築する。
あるいは、将来のフレームを1ショットで出力するMulti-In-Multi-Out (MIMO)アーキテクチャは、自然に再帰を損なう。
論文 参考訳(メタデータ) (2022-12-09T03:57:13Z) - Billions of Parameters Are Worth More Than In-domain Training Data: A
case study in the Legal Case Entailment Task [4.186775801993103]
言語モデルにおけるパラメータのスケーリングは、以前のゼロショット結果のF1スコアを6ポイント以上向上させることを示す。
大規模な言語モデルによってもたらされる課題にも拘わらず、我々はゼロショットの monoT5-3b モデルが検索エンジンとして本番で使用されていることを実演する。
論文 参考訳(メタデータ) (2022-05-30T15:21:26Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。