論文の概要: vstash: Local-First Hybrid Retrieval with Adaptive Fusion for LLM Agents
- arxiv url: http://arxiv.org/abs/2604.15484v1
- Date: Thu, 16 Apr 2026 19:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.631739
- Title: vstash: Local-First Hybrid Retrieval with Adaptive Fusion for LLM Agents
- Title(参考訳): vstash: LLMエージェントのための適応核融合を用いたローカルファーストハイブリッド検索
- Authors: Jayson Steffens,
- Abstract要約: ベクトル類似性検索と全文キーワードマッチングを組み合わせたローカルファーストの文書メモリシステム**vstash**を提案する。
すべてのデータはsqlite-vecを使って近傍の検索に近づき、FTS5でキーワードマッチングを行う単一のファイルに格納される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present **vstash**, a local-first document memory system that combines vector similarity search with full-text keyword matching via Reciprocal Rank Fusion (RRF) and adaptive per-query IDF weighting. All data resides in a single SQLite file using sqlite-vec for approximate nearest neighbor search and FTS5 for keyword matching. We make four primary contributions. **(1)** Self-supervised embedding refinement via hybrid retrieval disagreement: across 753 BEIR queries on SciFact, NFCorpus, and FiQA, 74.5% produce top-10 disagreement between vector-heavy (vec=0.95, fts=0.05) and FTS-heavy (vec=0.05, fts=0.95) search (per-dataset rates 63.4% / 73.4% / 86.7%, Section 5.2), providing a free training signal without human labels. Fine-tuning BGE-small (33M params) with MultipleNegativesRankingLoss on 76K disagreement triples improves NDCG@10 on all 5 BEIR datasets (up to +19.5% on NFCorpus vs. BGE-small base RRF, Table 6). On 3 of 5 datasets, under different preprocessing, the tuned 33M-parameter pipeline matches or exceeds published ColBERTv2 results (110M params) and an untrained BGE-base (110M); on FiQA and ArguAna it underperforms ColBERTv2 (Section 5.5). **(2)** Adaptive RRF with per-query IDF weighting improves NDCG@10 on all 5 BEIR datasets versus fixed weights (up to +21.4% on ArguAna), achieving 0.7263 on SciFact with BGE-small. **(3)** A negative result on post-RRF scoring: frequency+decay, history-augmented recall, and cross-encoder reranking all failed to improve NDCG. **(4)** A production-grade substrate with integrity checking, schema versioning, ranking diagnostics, and a distance-based relevance signal validated on 50,425 relevance-judged queries across the 5 BEIR datasets. Search latency remains 20.9 ms median at 50K chunks with stable NDCG. The fine-tuned model is published as `Stffens/bge-small-rrf-v2` on HuggingFace. All code, data, and experiments are open-source.
- Abstract(参考訳): 本稿では, ベクトル類似性検索と, Reciprocal Rank Fusion (RRF) によるフルテキストキーワードマッチングと, クエリごとのIDF重み付けを併用したローカルファーストな文書メモリシステムである**vstash*を提案する。
すべてのデータはsqlite-vecを使って1つのSQLiteファイルに格納され、近くの検索に近く、キーワードマッチングにFTS5が使用される。
主な貢献は4つある。
74.5%はベクトル重み(vec=0.95, fts=0.05)とFTS重み(vec=0.05, fts=0.95)の間のトップ10の不一致を生じさせ、人間のラベルのない無料のトレーニング信号を提供する。
MultipleNegatives RankingLoss on 76K disagreement triples は5つのBEIRデータセットの NDCG@10 を改善している(NFCorpus vs. BGE-small base RRF, Table 6 では +19.5% である)。
5つのデータセットのうち3つは、異なる前処理の下で調整された33MパラメータパイプラインがColBERTv2の結果(110Mparams)と未訓練のBGEベース(110M)と一致し、FiQAとArguAnaではColBERTv2(Section 5.5)より劣る。
**(2)* アダプティブRFFは5つのBEIRデータセットと固定ウェイト(ArguAnaでは+21.4%まで)でNDCG@10を改善し、SciFactではBGE-smallで0.7263に達する。
**(3)* 周波数+デカイ,履歴拡張リコール,クロスエンコーダリランクといったRRF後スコアの負の結果は,NDCGの改善には至らなかった。
**(4)* 整合性チェック、スキーマバージョニング、ランキング診断、および5つのBEIRデータセットにわたる50,425の関連クエリで検証された距離ベースの関連信号を備えたプロダクショングレードの基板。
検索遅延は、安定なNDCGで50Kチャンクで20.9ms中央値のままである。
微調整されたモデルは、HuggingFace上で `Stffens/bge-small-rrf-v2`として発行される。
コード、データ、実験はすべてオープンソースです。
関連論文リスト
- Hybrid Retrieval for COVID-19 Literature: Comparing Rank Fusion and Projection Fusion with Diversity Reranking [0.0]
本稿では,TREC-COVIDベンチマークで評価した,COVID-19の科学的文献のハイブリッド検索システムについて述べる。
このシステムはスパース(SPLADE)、密度(BGE)、ランクレベル融合(RRF)、投影ベースベクトル融合(B5)の6つの検索構成を実装している。
RRF融合は最も高い関連性(nDCG@10 = 0.828)を達成し、密度のみを6.1%、スパースのみを14.9%上回る。
論文 参考訳(メタデータ) (2026-04-15T11:05:46Z) - BRIDGE and TCH-Net: Heterogeneous Benchmark and Multi-Branch Baseline for Cross-Domain IoT Botnet Detection [1.2019888796331233]
IoTボットネット検出は進歩しているが、ほとんどの公開システムは単一のデータセットで検証されており、環境全体にわたって一般化されることはめったにない。
BRIDGEは、IoT侵入検知のための、初めて公式に指定された異種マルチデータセットベンチマークである。
我々は,LODO F1 = 0.5577 において,単一ベンチマーク最適化からクロス環境一般化へとアジェンダをシフトさせる最初のコミュニティ一般化ベースラインを確立する。
論文 参考訳(メタデータ) (2026-04-13T11:25:39Z) - Reproduction Beyond Benchmarks: ConstBERT and ColBERT-v2 Across Backends and Query Distributions [3.976291254896486]
ColBERT-v2 と ConstBERT を5次元にわたって評価した。
ConstBERTはMS-MARCOで0.05% MRR@10で再現されるが、どちらのモデルも長文クエリで86-97%の減少を示している。
論文 参考訳(メタデータ) (2026-04-11T01:36:33Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - Adaptive Split-MMD Training for Small-Sample Cross-Dataset P300 EEG Classification [12.103074826558531]
データセット間のシフトは、大きなソースデータセットで小さなターゲットセットを増やそうとするときに発生する。
適応分割最大値離散化学習(AS-MMD)を紹介する。
AS-MMDは、ターゲット重み付き損失とソース/ターゲットサイズ比の平方根に結びついたウォームアップを組み合わせる。
目標のみのトレーニングやプールトレーニングよりも優れています。
論文 参考訳(メタデータ) (2025-10-24T18:48:21Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Detection Transformer with Stable Matching [48.963171068785435]
もっとも重要な設計は, 肯定的な事例の分類スコアを監督するために, 位置測定値のみを使用することである。
本原理では,DTRの分類損失とマッチングコストに位置測定値を統合することで,簡易かつ効果的な2つの修正を提案する。
12エポックおよび24エポックのトレーニング設定の下でResNet-50バックボーンを用いてCOCO検出ベンチマークで50.4および51.5APを達成する。
論文 参考訳(メタデータ) (2023-04-10T17:55:37Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。