論文の概要: A Reproducibility Study of LLM-Based Query Reformulation
- arxiv url: http://arxiv.org/abs/2604.27421v1
- Date: Thu, 30 Apr 2026 04:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.927412
- Title: A Reproducibility Study of LLM-Based Query Reformulation
- Title(参考訳): LLMに基づくクエリ再構成の再現性の検討
- Authors: Amin Bigdeli, Radin Hamidi Rad, Hai Son Le, Mert Incesu, Negar Arabzadeh, Charles L. A. Clarke, Ebrahim Bagheri,
- Abstract要約: 大規模言語モデル(LLM)は、情報検索におけるクエリの再構成と拡張に広く用いられている。
統一的かつ厳密に制御された実験枠組みの下で, LLMに基づく10種類のクエリ再構成手法の体系的, 比較検討を行った。
以上の結果から,レキシカル検索による改善はニューラルレトリバーに連続的に移行するものではなく,より大きなLLMが下流性能を均一に向上させるものではないことが示唆された。
- 参考スコア(独自算出の注目度): 21.129945396073264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are now widely used for query reformulation and expansion in Information Retrieval, with many studies reporting substantial effectiveness gains. However, these results are typically obtained under heterogeneous experimental conditions, making it difficult to assess which findings are reproducible and which depend on specific implementation choices. In this work, we present a systematic reproducibility and comparative study of ten representative LLM-based query reformulation methods under a unified and strictly controlled experimental framework. We evaluate methods across two architectural LLM families at two parameter scales, three retrieval paradigms (lexical, learned sparse, and dense), and nine benchmark datasets spanning TREC Deep Learning and BEIR. Our results show that reformulation gains are strongly conditioned on the retrieval paradigm, that improvements observed under lexical retrieval do not consistently transfer to neural retrievers, and that larger LLMs do not uniformly yield better downstream performance. These findings clarify the stability and limits of reported gains in prior work. To enable transparent replication and ongoing comparison, we release all prompts, configurations, evaluation scripts, and run files through QueryGym, an open-source reformulation toolkit with a public leaderboard.\footnote{https://leaderboard.querygym.com}
- Abstract(参考訳): 大規模言語モデル (LLM) は現在、情報検索におけるクエリ再構成と拡張に広く使われており、多くの研究でかなりの効果が報告されている。
しかし、これらの結果は典型的には不均一な実験条件下で得られるため、どの結果が再現可能か、特定の実装選択に依存するかを評価することは困難である。
本研究では,総合的かつ厳密に制御された実験枠組みの下で,LLMに基づく10種類のクエリ再構成手法の体系的再現性と比較研究を行う。
2つのパラメータスケール、3つの検索パラダイム(語彙、学習スパース、密度)、およびTRECディープラーニングとBEIRにまたがる9つのベンチマークデータセットを評価する。
以上の結果から,レキシカル検索により得られた改善はニューラルレトリバーに連続的に伝達されず,より大型のLLMでは下流性能が一様でないことが示唆された。
これらの結果は,先行作業における報告利得の安定性と限界を明らかにした。
透過的なレプリケーションと継続的な比較を可能にするため、公開リーダボードを備えたオープンソースの修正ツールキットであるQueryGymを通じて、すべてのプロンプト、構成、評価スクリプト、ファイルの実行をリリースします。
\footnote{https://leaderboard.querygym.com}
関連論文リスト
- DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。
dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。
モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文 参考訳(メタデータ) (2026-02-13T02:18:14Z) - What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。
2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。
明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文 参考訳(メタデータ) (2025-11-17T20:50:50Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models [24.90505576458548]
我々は,大規模言語モデル(LLM)に基づく,軽量なコンテクストとゼロショットアプローチを含む,最先端のリグレード手法の評価を行った。
我々の第一の目的は、LLMベースのリランカと軽量なリランカの間に性能格差が存在するかどうか、制御と公正な比較によって決定することである。
論文 参考訳(メタデータ) (2025-08-22T19:30:04Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Unleashing the Power of Large Language Models in Zero-shot Relation Extraction via Self-Prompting [21.04933334040135]
本稿では,大規模言語モデルに組み込まれたRE知識を十分に活用する新しい手法であるSelf-Promptingフレームワークを紹介する。
我々のフレームワークは3段階の多様性アプローチを用いてLSMを誘導し、スクラッチから特定の関係をカプセル化する複数の合成サンプルを生成する。
ベンチマークデータセットを用いた実験により,既存のLCMベースのゼロショットRE法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-02T01:12:54Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。