Fugu-MT 論文翻訳(概要): Effective Inference-Free Retrieval for Learned Sparse Representations

論文の概要: Effective Inference-Free Retrieval for Learned Sparse Representations

arxiv url: http://arxiv.org/abs/2505.01452v1
Date: Wed, 30 Apr 2025 09:10:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.119574
Title: Effective Inference-Free Retrieval for Learned Sparse Representations
Title（参考訳）: 学習したスパース表現に対する効果的な推論自由検索法
Authors: Franco Maria Nardini, Thong Nguyen, Cosimo Rulli, Rossano Venturini, Andrew Yates,
Abstract要約: Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。より効率的なLSRエンコーダを生成するために、正規化を緩和できることが示される。
参考スコア（独自算出の注目度）: 19.54810957623511
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learned Sparse Retrieval (LSR) is an effective IR approach that exploits pre-trained language models for encoding text into a learned bag of words. Several efforts in the literature have shown that sparsity is key to enabling a good trade-off between the efficiency and effectiveness of the query processor. To induce the right degree of sparsity, researchers typically use regularization techniques when training LSR models. Recently, new efficient -- inverted index-based -- retrieval engines have been proposed, leading to a natural question: has the role of regularization changed in training LSR models? In this paper, we conduct an extended evaluation of regularization approaches for LSR where we discuss their effectiveness, efficiency, and out-of-domain generalization capabilities. We first show that regularization can be relaxed to produce more effective LSR encoders. We also show that query encoding is now the bottleneck limiting the overall query processor performance. To remove this bottleneck, we advance the state-of-the-art of inference-free LSR by proposing Learned Inference-free Retrieval (Li-LSR). At training time, Li-LSR learns a score for each token, casting the query encoding step into a seamless table lookup. Our approach yields state-of-the-art effectiveness for both in-domain and out-of-domain evaluation, surpassing Splade-v3-Doc by 1 point of mRR@10 on MS MARCO and 1.8 points of nDCG@10 on BEIR.
Abstract（参考訳）: Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。この文献におけるいくつかの取り組みは、クエリプロセッサの効率性と有効性の間の良好なトレードオフを可能にするために、スパーシリティが鍵であることを示している。適切な疎度を誘導するために、研究者は通常、LSRモデルをトレーニングする際に正規化技術を使用する。近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。本稿では,LSRにおける正規化手法の拡張評価を行い,その有効性,効率,領域外一般化能力について論じる。まず、より効率的なLSRエンコーダを生成するために、正規化を緩和できることを示す。また、クエリーエンコーディングが、クエリープロセッサ全体のパフォーマンスを制限するボトルネックになっていることも示しています。このボトルネックを取り除くために、Learned Inference-free Retrieval (Li-LSR)を提案することにより、推論自由LSRの最先端化を進める。トレーニング時にLi-LSRは各トークンのスコアを学習し、クエリエンコーディングステップをシームレスなテーブルルックアップにキャストする。提案手法は,MS MARCOではmRR@10,BEIRではnDCG@10,Splade-v3-DocではmRR@10,BEIRではnDCG@10を1ポイント上回った。

関連論文リスト

Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
OAT-Rephrase: Optimization-Aware Training Data Rephrasing for Zeroth-Order LLM Fine-Tuning [25.76983801886268]
本稿では,OAT-Rephraseについて紹介する。 OAT-RephraseはMeZOの微調整性能を常に改善することを示す。提案手法は,ゼロ階調音システムにおける再利用可能な低オーバヘッド向上に有効であることが示唆された。
論文参考訳（メタデータ） (2025-06-10T02:53:04Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)はこれらの問題を緩和するための有望な方法として登場した。 OLoRAはLLMトレーニングの収束を著しく加速する。 OLoRAは、様々な言語モデリングタスクで標準のLoRAよりもパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-06-03T20:37:27Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Blending Imitation and Reinforcement Learning for Robust Policy Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。 RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。 RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文参考訳（メタデータ） (2023-10-03T01:55:54Z)
An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文参考訳（メタデータ） (2022-07-08T11:42:05Z)
LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文参考訳（メタデータ） (2022-03-11T18:53:12Z)
Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。適切なLSRが分散を減少させることで収束を加速することを示す。本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文参考訳（メタデータ） (2020-06-20T20:36:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。