論文の概要: Test-Time Training for Zero-Resource Dense Retrieval Reranking
- arxiv url: http://arxiv.org/abs/2606.01070v1
- Date: Sun, 31 May 2026 07:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.189662
- Title: Test-Time Training for Zero-Resource Dense Retrieval Reranking
- Title(参考訳): ゼロソース高密度検索のためのテストタイムトレーニング
- Authors: Shiyan Liu, Yichen Li,
- Abstract要約: 既存のアプローチは基本的なジレンマに直面している。クロスエンコーダは、強いリランク品質を提供するが、高価な教師付きトレーニングと高いレイテンシを必要とする。
本稿では,DART(Dense Adaptive Re rank at Test-time)を提案する。
6つのBEIRベンチマークで、DARTはデータベース毎の相対的なNDCG@10ゲイン(+2.1%)を高密度検索ベースラインで達成し、クエリ毎のレイテンシは10ミリ秒以下である。
- 参考スコア(独自算出の注目度): 3.498051445282382
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dense retrievers excel at first-stage candidate generation but lack effective reranking in zero-resource settings. Existing approaches face a fundamental dilemma: cross-encoders deliver strong reranking quality but require costly supervised training and incur high latency, while unsupervised BM25 reranking consistently degrades dense retrieval performance on most of BEIR benchmarks. We propose DART (Dense Adaptive Reranking at Test-time), which resolves this dilemma by adapting the scoring function at inference time. For each query, the top-ranked documents serve as pseudo-positive examples and the bottom-ranked as pseudo-negative examples, providing noisy but readily available supervision to adapt a bilinear scoring matrix $W$ via a small number of gradient updates. We further introduce a confidence-weighted margin loss and a cross-query momentum buffer that warm-starts adaptation across queries. On six BEIR benchmarks, DART achieves a mean per-dataset relative NDCG@10 gain of +2.1% over the dense retrieval baseline with under 10ms additional latency per query, demonstrating a powerful capability for zero-shot performance enhancement and cross-domain generalization.
- Abstract(参考訳): デンスレトリバーは第1段階の候補生成では優れているが、ゼロリソース設定では効果的なリランクが欠如している。
既存のアプローチは基本的なジレンマに直面している: クロスエンコーダは強いリランク品質を提供するが、コストのかかるトレーニングと高いレイテンシを必要とする。
本稿では,DART(Dense Adaptive Re rank at Test-time)を提案する。
各クエリに対して、上位のドキュメントは擬陽性の例として機能し、下位のドキュメントは擬陰性な例として機能する。
さらに、信頼性に富んだマージン損失と、クエリ間の適応を暖かく開始するクロスクエリモーメントバッファを導入する。
6つのBEIRベンチマークにおいて、DARTは、クエリ毎に10ミリ秒以下のレイテンシで、高密度検索ベースライン上で平均1データセット当たりのNDCG@10ゲイン+2.1%のアップを実現し、ゼロショット性能向上とクロスドメイン一般化の強力な能力を示している。
関連論文リスト
- Are LLM-Based Retrievers Worth Their Cost? An Empirical Study of Efficiency, Robustness, and Reasoning Overhead [20.897837226246367]
我々は12のタスクと14のレトリバーにわたる推論集約型検索ベンチマーク(BRIGHT)を再現する。
我々は、コールドスタートインデクシングコスト、クエリ待ち時間分布、スループットによる評価を拡張した。
スループットの競争力を維持しながら,いくつかの推論特化レトリバーが高い有効性を実現していることがわかった。
論文 参考訳(メタデータ) (2026-04-04T10:24:19Z) - OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation [39.548179971747906]
ドメイン固有の微調整は、高密度レトリバーにとって不可欠であるが、すべてのトレーニングペアが学習プロセスに等しく貢献するわけではない。
我々は、この不均一性を利用して、検索モデル適応の有効性と効率を両立させるデータプルーニングフレームワークであるOPERAを紹介する。
論文 参考訳(メタデータ) (2026-03-17T23:11:45Z) - Robust Test-time Video-Text Retrieval: Benchmarking and Adapting for Query Shifts [28.52079785516312]
ビデオテキスト検索(VTR)モデルは、現実世界のクエリシフトに対して非常に脆弱である。
本稿では,HAT-VTR(Hubness Alleviation for Test-time Video-Text Retrieval)をベースラインテストタイム適応フレームワークとして提案する。
大規模な実験により、HAT-VTRはロバスト性を大幅に改善し、さまざまなクエリシフトシナリオで一貫してメソッドのパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2026-02-15T05:57:44Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - ReSURE: Regularizing Supervision Unreliability for Multi-turn Dialogue Fine-tuning [72.05731026796335]
マルチターン対話システムは、低品質のデータに晒された場合、しばしば劣化した性能に悩まされる。
本稿では,適応学習手法であるReSUREを提案する。
単一ソースと混合品質のデータセットの実験では、安定性と応答品質が改善された。
論文 参考訳(メタデータ) (2025-08-27T15:54:01Z) - RADAR: Recall Augmentation through Deferred Asynchronous Retrieval [0.0]
Deferred Asynchronous Retrieval (RADAR)によるリコール拡張について紹介する。
RADARは、完全な複雑性ランキングモデルを使用して、ユーザに対してはるかに大きな候補セットを事前にランク付けする。
RADARは、検索されたより大きな候補セットとより強力なランキングモデルを効果的に組み合わせることでリコールを大幅に強化する。
論文 参考訳(メタデータ) (2025-06-08T19:21:46Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。