論文の概要: Query Expansion in the Age of Pre-trained and Large Language Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2509.07794v1
- Date: Tue, 09 Sep 2025 14:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.356094
- Title: Query Expansion in the Age of Pre-trained and Large Language Models: A Comprehensive Survey
- Title(参考訳): 事前学習および大規模言語モデルの時代におけるクエリ拡張:包括的調査
- Authors: Minghan Li, Xinxuan Lv, Junjie Zou, Tongna Chen, Chao Zhang, Suchao An, Ercong Nie, Guodong Zhou,
- Abstract要約: i)クエリ拡張の4次元フレームワーク,(ii)エンコーダのみ,エンコーダデコーダ,デコーダのみ,命令チューニング,ドメイン/マルチティンガル変種にまたがるモデル中心の分類,(iii)ニューラルQEがファーストステージ検索にどのように役立つか,というプラクティス指向のガイダンスから,フィールドを合成する。
従来のクエリ拡張とPLM/LLMベースの7つの重要な側面を比較し、Web検索、バイオメディシン、eコマース、オープンドメインQA/RAG、会話型およびコード検索、クロスマップする。
- 参考スコア(独自算出の注目度): 21.764997953030857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern information retrieval (IR) must bridge short, ambiguous queries and ever more diverse, rapidly evolving corpora. Query Expansion (QE) remains a key mechanism for mitigating vocabulary mismatch, but the design space has shifted markedly with pre-trained language models (PLMs) and large language models (LLMs). This survey synthesizes the field from three angles: (i) a four-dimensional framework of query expansion - from the point of injection (explicit vs. implicit QE), through grounding and interaction (knowledge bases, model-internal capabilities, multi-turn retrieval) and learning alignment, to knowledge graph-based argumentation; (ii) a model-centric taxonomy spanning encoder-only, encoder-decoder, decoder-only, instruction-tuned, and domain/multilingual variants, highlighting their characteristic affordances for QE (contextual disambiguation, controllable generation, zero-/few-shot reasoning); and (iii) practice-oriented guidance on where and how neural QE helps in first-stage retrieval, multi-query fusion, re-ranking, and retrieval-augmented generation (RAG). We compare traditional query expansion with PLM/LLM-based methods across seven key aspects, and we map applications across web search, biomedicine, e-commerce, open-domain QA/RAG, conversational and code search, and cross-lingual settings. The review distills design grounding and interaction, alignment/distillation (SFT/PEFT/DPO), and KG constraints - as robust remedies to topic drift and hallucination. We conclude with an agenda on quality control, cost-aware invocation, domain/temporal adaptation, evaluation beyond end-task metrics, and fairness/privacy. Collectively, these insights provide a principled blueprint for selecting and combining QE techniques under real-world constraints.
- Abstract(参考訳): 現代の情報検索(IR)は、短くあいまいなクエリと、より多様で急速に進化するコーパスを橋渡ししなければならない。
クエリ拡張(QE)は、語彙ミスマッチを緩和するための重要なメカニズムであるが、設計空間は、事前訓練された言語モデル(PLM)と大規模言語モデル(LLM)によって著しく変化している。
この調査は3つの角度からフィールドを合成する。
(i)クエリ拡張の4次元フレームワーク - インジェクション(明示対暗黙QE)、接地と相互作用(知識ベース、モデル内部能力、マルチターン検索)、学習アライメントから知識グラフに基づく議論まで。
(二 エンコーダのみ、エンコーダのみ、エンコーダのみ、デコーダのみ、命令調整、ドメイン/マルチティンガルの変種にまたがるモデル中心の分類法であって、QE(contextual disambiguation, controllable generation, zero-/few-shot reasoning)の特色を強調させるもの
三 神経質QEが第一段階検索、マルチクエリ融合、再ランク付け、検索強化世代(RAG)においてどのように役立つかに関する実践的指導。
従来のクエリ拡張とPLM/LLMベースの7つの重要な側面を比較し、Web検索、バイオメディシン、eコマース、オープンドメインQA/RAG、対話型およびコード検索、言語間設定にまたがってアプリケーションをマップする。
このレビューでは、トピックドリフトと幻覚に対する堅牢な対策として、設計基盤と相互作用、アライメント/蒸留(SFT/PEFT/DPO)とKG制約を蒸留している。
品質管理、コスト対応の呼び出し、ドメイン/時間適応、エンドタスクのメトリクスを超えた評価、公平さ/プライバシに関する議題で締めくくります。
これらの洞察は、実世界の制約の下でQEテクニックを選択し、組み合わせるための原則化された青写真を提供する。
関連論文リスト
- The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - HIRAG: Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation [9.175609521889266]
我々は、新しいRAG命令微調整手法、階層型命令-調整型検索生成(HIRAG)を導入する。
この方法は,多段階のプログレッシブ・チェーン・オブ・シントを利用して,モデルのオープンブック検査能力を向上させる。
実験によると、HIRAGトレーニング戦略は、RGB、PopQA、MuSiQue、HotpotQA、PubmedQAといったデータセット上でのモデルのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-07-08T06:53:28Z) - SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models [4.328173053224842]
本稿では、自己干渉パラダイムによる推論を改善するために設計された新しいプロンプト技術であるSQuAREを紹介する。
CoTフレームワーク上に構築されているSQuAREでは,メインクエリに対処する前に,複数の補助的な質問の生成と解決をモデルに促している。
Llama 3 と GPT-4o モデルを用いて複数の質問応答データセットを用いて評価を行った結果,SQuARE が従来の CoT プロンプトや既存のrephrase-and- corresponding 手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-13T15:07:20Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - QASem Parsing: Text-to-text Modeling of QA-based Semantics [19.42681342441062]
本稿では,QA-SRL,QANom,QADiscourseの3つの意味的タスクについて考察する。
最初に統合されたQASem解析ツールをリリースし、下流アプリケーションに実用的です。
論文 参考訳(メタデータ) (2022-05-23T15:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。