論文の概要: NumColBERT: Non-Intrusive Numeracy Injection for Late-Interaction Retrieval Models
- arxiv url: http://arxiv.org/abs/2605.10109v1
- Date: Mon, 11 May 2026 07:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.599538
- Title: NumColBERT: Non-Intrusive Numeracy Injection for Late-Interaction Retrieval Models
- Title(参考訳): NumColBERT:遅延相互作用検索モデルのための非侵入的核注入
- Authors: Haruki Fujimaki, Makoto P. Kato,
- Abstract要約: 本研究は,数値条件を含む問合せに対して,高密度検索性能を向上させることの課題に対処する。
既存のソリューションは通常、クエリをテキストコンポーネントと数値コンポーネントに分解し、個別にスコアする。
NumColBERTは、数値条件付き検索を強化する推論時非侵入法である。
- 参考スコア(独自算出の注目度): 1.4051419173519308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses the challenge of improving dense retrieval performance for queries containing numerical conditions, such as ``companies with more than one billion dollars in R&D expenditure.'' Although recent research has shown that standard models struggle with numeric information in domains such as finance, e-commerce, and medicine, existing solutions typically decompose queries into textual and numerical components and score them separately. These approaches modify late-interaction retrieval models such as ColBERT and introduce challenges in deployment, latency, and maintainability. To overcome these limitations, we propose NumColBERT, an inference-time non-intrusive method that enhances numerically conditioned retrieval while preserving the original late-interaction mechanism. Because NumColBERT retains the standard ColBERT indexing and MaxSim scoring pipeline, existing optimizations and ecosystem components can be reused directly, facilitating practical deployment. NumColBERT introduces a Numerical Gating Mechanism and a Numerical Contrastive Learning objective to enable numerical conditions to contribute more effectively within standard ColBERT scoring. The gating mechanism amplifies tokens carrying critical numerical constraints while suppressing context-neutral numerical mentions, and the contrastive objective shapes the embedding space to reflect numerical magnitudes, units, and conditions. Experimental results show that NumColBERT substantially outperforms standard fine-tuning baselines and achieves accuracy comparable to or better than prior approaches relying on separate textual and numerical scoring. These findings demonstrate the feasibility of numerically conditioned retrieval with a non-intrusive inference pipeline and present a maintainable solution for real-world deployment.
- Abstract(参考訳): 本研究では,R&D支出が10億ドルを超えるような数値条件を含む問合せに対して,高密度検索性能を向上させるという課題に対処する。
「''最近の研究では、金融、電子商取引、医療などの分野において、標準モデルは数値情報に苦しむことが示されているが、既存のソリューションは通常、クエリをテキストや数値の要素に分解し、個別にスコア付けする。
これらのアプローチは、ColBERTのような遅延相互作用検索モデルを変更し、デプロイ、レイテンシ、保守性に関する課題を導入する。
この制限を克服するために,NumColBERTを提案する。これは推論時の非侵入的手法で,元の遅延応答機構を保ちながら数値条件付き検索を強化する。
NumColBERTは標準のColBERTインデックスとMaxSimスコアパイプラインを保有しているため、既存の最適化とエコシステムコンポーネントを直接再利用することができ、実用的なデプロイを容易にする。
NumColBERTは数値ゲーティング機構と数値コントラスト学習の目的を導入し、数値条件が標準ColBERTスコア内でより効果的に寄与できるようにする。
ゲーティング機構は、文脈ニュートラルな数値言及を抑えつつ、重要な数値制約を持つトークンを増幅し、対照的な目的は埋め込み空間を数値等級、単位、条件を反映する。
実験結果から,NumColBERTは標準的な微調整ベースラインを大幅に上回り,テキストと数値の別々のスコアリングに依存する従来の手法に匹敵する精度が得られた。
これらの結果は,非侵襲的推論パイプラインによる数値条件付き検索の実現可能性を示し,実世界展開のための保守可能なソリューションを提案する。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - KinyaColBERT: A Lexically Grounded Retrieval Model for Low-Resource Retrieval-Augmented Generation [5.236553729261855]
そこで本稿では,クエリとドキュメント間の単語レベルの遅延インタラクションと,2層トランスフォーマ符号化を組み合わせた形態素ベースのトークン化という,2つの重要な概念を統合した検索モデルKinyaColBERTを提案する。
評価の結果,KinyaColBERTはKinyarwandaの農業用ベンチマークにおいて,強いベースラインと商業用テキスト埋め込みAPIよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-07-04T01:18:08Z) - IM-BERT: Enhancing Robustness of BERT through the Implicit Euler Method [6.660834045805309]
IM-BERTは正規微分方程式(ODE)の解である
BERT層を組み込んだ数値的に堅牢なIM接続を導入する。
オリジナルのBERTと比較して、IM-BERTはAdvGLUEデータセットの約8.3%pのパフォーマンス改善を示している。
論文 参考訳(メタデータ) (2025-05-11T07:54:33Z) - MultiConIR: Towards multi-condition Information Retrieval [38.864056667809095]
MultiConIRは、複雑なマルチ条件クエリシナリオ下での検索および再ランクモデルの評価のために設計されたベンチマークである。
ほとんどのレトリバーとリランカは、クエリの複雑さが増大するにつれて、パフォーマンスが大幅に低下する。
この研究は、リランカの性能劣化の原因を解明し、クエリ内の条件位置が類似性評価にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。
最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。
本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T16:48:55Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Introducing Neural Bag of Whole-Words with ColBERTer: Contextualized
Late Interactions using Enhanced Reduction [10.749746283569847]
ColBERTerは、文脈化された遅延相互作用(ColBERT)と強化されたリダクションを用いたニューラル検索モデルである。
マルチベクタコンポーネントのために、ColBERTerは、各ドキュメントの用語に対するユニークな全ワード表現を学習することで、ドキュメントごとの格納数を減らす。
MS MARCOとTREC-DLのコレクションの結果から、ColBERTerは最大2.5倍のストレージフットプリントを削減できるが、有効性は維持できる。
論文 参考訳(メタデータ) (2022-03-24T14:28:07Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。