論文の概要: Reassessing Large Language Model Boolean Query Generation for Systematic Reviews
- arxiv url: http://arxiv.org/abs/2505.07155v1
- Date: Mon, 12 May 2025 00:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.226106
- Title: Reassessing Large Language Model Boolean Query Generation for Systematic Reviews
- Title(参考訳): システムレビューのための大規模言語モデルブールクエリ生成の再評価
- Authors: Shuai Wang, Harrisen Scells, Bevan Koopman, Guido Zuccon,
- Abstract要約: 大規模言語モデル (LLM) は複雑なクエリの開発を支援するために開発された。
この研究は、オリジナル作品の重要な側面を見落としている2つの研究を体系的に再現した。
その結果,クエリの有効性はモデルやプロンプト設計によって大きく異なることがわかった。
本研究は,モデルおよびプロンプト特異的最適化の重要性を強調した。
- 参考スコア(独自算出の注目度): 33.74979207094165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic reviews are comprehensive literature reviews that address highly focused research questions and represent the highest form of evidence in medicine. A critical step in this process is the development of complex Boolean queries to retrieve relevant literature. Given the difficulty of manually constructing these queries, recent efforts have explored Large Language Models (LLMs) to assist in their formulation. One of the first studies,Wang et al., investigated ChatGPT for this task, followed by Staudinger et al., which evaluated multiple LLMs in a reproducibility study. However, the latter overlooked several key aspects of the original work, including (i) validation of generated queries, (ii) output formatting constraints, and (iii) selection of examples for chain-of-thought (Guided) prompting. As a result, its findings diverged significantly from the original study. In this work, we systematically reproduce both studies while addressing these overlooked factors. Our results show that query effectiveness varies significantly across models and prompt designs, with guided query formulation benefiting from well-chosen seed studies. Overall, prompt design and model selection are key drivers of successful query formulation. Our findings provide a clearer understanding of LLMs' potential in Boolean query generation and highlight the importance of model- and prompt-specific optimisations. The complex nature of systematic reviews adds to challenges in both developing and reproducing methods but also highlights the importance of reproducibility studies in this domain.
- Abstract(参考訳): システマティックレビュー(Systematic Review)は、高度に焦点を絞った研究課題に対処し、医学における最も高い証拠の形式を表す包括的な文献レビューである。
このプロセスにおける重要なステップは、関連する文献を検索する複雑なブールクエリの開発である。
これらのクエリを手動で構築することの難しさを踏まえ、最近の取り組みは、その定式化を支援するために、Large Language Models (LLMs) を探索してきた。
最初の研究の1つ、Wang et al はChatGPTを調査し、続いてStaudinger et al は再現性の研究で複数のLSMを評価した。
しかし、後者はオリジナル作品のいくつかの重要な側面を見落としている。
(i)生成されたクエリの検証
(ii)出力フォーマット制約、及び
三 思考の連鎖(誘導)の模範の選定
その結果,本研究とは大きく異なっていた。
本研究は,両研究を体系的に再現し,見落としている要因に対処する。
その結果,クエリの有効性はモデルやプロンプト設計によって大きく異なっており,クエリの定式化はよく研究されている。
全体として、迅速な設計とモデル選択がクエリの定式化の成功の鍵となる。
本研究は,Booleanクエリ生成におけるLLMの可能性を明確に把握し,モデルとプロンプトの最適化の重要性を強調した。
体系的レビューの複雑な性質は、手法の開発と再現の両面での課題に加え、この領域における再現可能性研究の重要性も強調している。
関連論文リスト
- Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Case Study [0.9424565541639368]
化学領域における大規模言語モデルの構成的推論能力を評価するために,キュレートされたデータセットと定義された評価プロセスからなる新しいベンチマークを導入する。
我々の手法はOpenAI推論モデルと名前付きエンティティ認識(NER)システムを統合し、最近の文献から化学物質を抽出し、外部知識ベースで拡張して知識グラフを形成する。
実験により, 最先端モデルでさえ, マルチホップ構成推論において重要な課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2025-04-23T04:36:19Z) - Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - A Reproducibility and Generalizability Study of Large Language Models for Query Generation [14.172158182496295]
生成AIと大規模言語モデル(LLM)は、体系的な文献レビュープロセスに革命をもたらすことを約束する。
本稿では,LLMを用いたBooleanクエリ生成を体系的レビューのために広範囲に研究する。
本研究は,ChatGPTを用いて得られた結果の複製性と信頼性について検討した。
次に、オープンソースモデルの解析と評価により結果を一般化する。
論文 参考訳(メタデータ) (2024-11-22T13:15:03Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Embedding-Informed Adaptive Retrieval-Augmented Generation of Large Language Models [37.02290559379761]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。
このことに動機づけられた、適応検索拡張生成(ARAG)研究は、クエリによって要求される知識が LLM に欠如している場合にのみ検索する。
論文 参考訳(メタデータ) (2024-04-04T15:21:22Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。