論文の概要: Query Expansion in the Age of Pre-trained and Large Language Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2509.07794v2
- Date: Sat, 25 Oct 2025 13:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.432973
- Title: Query Expansion in the Age of Pre-trained and Large Language Models: A Comprehensive Survey
- Title(参考訳): 事前学習および大規模言語モデルの時代におけるクエリ拡張:包括的調査
- Authors: Minghan Li, Xinxuan Lv, Junjie Zou, Tongna Chen, Chao Zhang, Suchao An, Ercong Nie, Guodong Zhou,
- Abstract要約: 現代の情報検索は、多種多様な動的コーパスであいまいなクエリを調整しなければならない。
インジェクションのポイント、接地と相互作用、学習とアライメント、知識グラフの統合の4つの相補的な側面に沿って、最近の作業を組織化します。
この調査では、Web検索、バイオメディシン、eコマース、オープンドメイン質問応答/RAG、会話とコード検索、言語間設定など、7つの側面にわたる従来のQEと神経質なQEを比較した。
- 参考スコア(独自算出の注目度): 21.764997953030857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern information retrieval (IR) must reconcile short, ambiguous queries with increasingly diverse and dynamic corpora. Query expansion (QE) remains central to alleviating vocabulary mismatch, yet the design space has shifted with pre-trained and large language models (PLMs, LLMs). In this survey, we organize recent work along four complementary dimensions: the point of injection (implicit/embedding vs. selection-based explicit), grounding and interaction (from zero-grounding prompts to multi-round retrieve-expand loops), learning and alignment (SFT/PEFT/DPO), and knowledge-graph integration. A model-centric taxonomy is also outlined, spanning encoder-only, encoder-decoder, decoder-only, instruction-tuned, and domain or multilingual variants, with affordances for QE such as contextual disambiguation, controllable generation, and zero-shot or few-shot reasoning. Practice-oriented guidance specifies where neural QE helps most: first-stage retrieval, multi-query fusion, re-ranking, and retrieval-augmented generation (RAG). The survey compares traditional and neural QE across seven aspects and maps applications in web search, biomedicine, e-commerce, open-domain question answering/RAG, conversational and code search, and cross-lingual settings. The survey concludes with an agenda focused on reliable, safe, efficient, and adaptive QE, offering a principled blueprint for deploying and combining techniques under real-world constraints.
- Abstract(参考訳): 現代の情報検索(IR)は、より多様でダイナミックなコーパスで簡潔で曖昧なクエリを調整しなければならない。
クエリ拡張(QE)は、語彙ミスマッチを軽減するための中心的存在だが、設計空間は、事前訓練された大規模言語モデル(PLM、LLM)に移行している。
本調査では, インジェクション点(単純/埋め込み対選択ベース明示), 接地と相互作用(ゼログラウンドプロンプトから多周検索ループまで), 学習とアライメント(SFT/PEFT/DPO), 知識グラフ統合の4つの相補的な側面に沿って, 最近の研究を整理する。
モデル中心の分類法も概説され、エンコーダのみ、エンコーダのみ、エンコーダのみ、デコーダのみ、命令指定、ドメインまたは多言語による変異があり、文脈的曖昧さ、制御可能な生成、ゼロショットまたは少数ショット推論などのQEのための余裕がある。
実践指向ガイダンスは、第一段階の検索、マルチクエリフュージョン、再ランク付け、検索強化生成(RAG)など、神経質なQEが最も役立つ場所を特定する。
この調査では、Web検索、バイオメディシン、eコマース、オープンドメイン質問応答/RAG、会話とコード検索、言語間設定など、7つの側面にわたる従来のQEと神経質なQEを比較した。
調査は信頼性、安全性、効率的、適応的なQEに焦点を当てたアジェンダで締めくくられ、現実世界の制約下でのテクニックの展開と組み合わせのための原則化された青写真を提供する。
関連論文リスト
- The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - HIRAG: Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation [9.175609521889266]
我々は、新しいRAG命令微調整手法、階層型命令-調整型検索生成(HIRAG)を導入する。
この方法は,多段階のプログレッシブ・チェーン・オブ・シントを利用して,モデルのオープンブック検査能力を向上させる。
実験によると、HIRAGトレーニング戦略は、RGB、PopQA、MuSiQue、HotpotQA、PubmedQAといったデータセット上でのモデルのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-07-08T06:53:28Z) - SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models [4.328173053224842]
本稿では、自己干渉パラダイムによる推論を改善するために設計された新しいプロンプト技術であるSQuAREを紹介する。
CoTフレームワーク上に構築されているSQuAREでは,メインクエリに対処する前に,複数の補助的な質問の生成と解決をモデルに促している。
Llama 3 と GPT-4o モデルを用いて複数の質問応答データセットを用いて評価を行った結果,SQuARE が従来の CoT プロンプトや既存のrephrase-and- corresponding 手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-13T15:07:20Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - QASem Parsing: Text-to-text Modeling of QA-based Semantics [19.42681342441062]
本稿では,QA-SRL,QANom,QADiscourseの3つの意味的タスクについて考察する。
最初に統合されたQASem解析ツールをリリースし、下流アプリケーションに実用的です。
論文 参考訳(メタデータ) (2022-05-23T15:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。