論文の概要: AutoBool: An Reinforcement-Learning trained LLM for Effective Automated Boolean Query Generation for Systematic Reviews
- arxiv url: http://arxiv.org/abs/2602.00005v1
- Date: Fri, 21 Nov 2025 04:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 22:19:52.866128
- Title: AutoBool: An Reinforcement-Learning trained LLM for Effective Automated Boolean Query Generation for Systematic Reviews
- Title(参考訳): AutoBool: システムレビューのための効果的なブールクエリ生成のための強化学習型LLM
- Authors: Shuai Wang, Harrisen Scells, Bevan Koopman, Guido Zuccon,
- Abstract要約: AutoBoolは,大規模言語モデル(LLM)をトレーニングして,効果的なBooleanクエリを生成するフレームワークである。
トレーニング用のトピックとして65588という,その種類で最も大きなデータセットをリリースしています。
実験の結果、AutoBoolはゼロショット/フェーショットのプロンプトを著しく上回り、GPTベースのモデルよりもはるかに大きなモデルの有効性を達成または上回っていることがわかった。
- 参考スコア(独自算出の注目度): 42.03242247233896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present AutoBool, a reinforcement learning (RL) framework that trains large language models (LLMs) to generate effective Boolean queries for medical systematic reviews. Boolean queries are the primary mechanism for literature retrieval in this domain and must achieve high recall while maintaining reasonable precision - a challenging balance that existing prompt-based LLM approaches often struggle to achieve. A major limitation in this space is the lack of high-quality ground-truth Boolean queries for each topic, which makes supervised fine-tuning impractical. AutoBool addresses this challenge by using RL to directly optimize query generation with retrieval measures, without requiring target queries. To support this effort, we create and release the largest dataset of its kind: 65588 topics in total for training and evaluating the task of automatic Boolean query formulation. Experiments on our new dataset and two established datasets (CLEF TAR and Seed Collection) show that AutoBool significantly outperforms zero shot/few shot prompting and matches or exceeds the effectiveness of much larger GPT-based models (e.g., GPT-4o, O3) using smaller backbones. It also approaches effectiveness of expert-authored queries while retrieving 10 to 16 times fewer documents. Ablation studies reveal the critical roles of model backbone, size, decoding temperature, and prompt design. Code and data are available at https://github.com/ielab/AutoBool.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を学習し,効果的なブールクエリを生成するための強化学習(RL)フレームワークであるAutoBoolを提案する。
ブールクエリは、この領域で文学検索の主要なメカニズムであり、適切な精度を維持しながら高いリコールを達成する必要がある。
この領域における大きな制限は、各トピックに対する高品質な地味なブールクエリが欠如していることであり、教師付き微調整は非現実的である。
AutoBoolはこの課題に対処するため、ターゲットクエリを必要とせずに、RLを使用してクエリ生成を検索手段で直接最適化する。
この取り組みをサポートするため、私たちは、Booleanクエリの自動定式化のタスクをトレーニングし評価するために、65588トピックという、その種類の最大のデータセットを作成し、リリースします。
新たなデータセットと2つの確立されたデータセット(CLEF TARとSeed Collection)の実験から、AutoBoolはゼロショット/フェーショットのプロンプトを著しく上回り、より小さなバックボーンを使用したGPTベースのモデル(例:GPT-4o, O3)の有効性をはるかに上回っている。
また、専門家によるクエリの有効性にもアプローチし、10倍から16倍のドキュメントを検索する。
アブレーション研究は、モデルバックボーン、サイズ、デコード温度、そして迅速な設計の重要な役割を明らかにしている。
コードとデータはhttps://github.com/ielab/AutoBool.comで公開されている。
関連論文リスト
- MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Pseudo Relevance Feedback is Enough to Close the Gap Between Small and Large Dense Retrieval Models [29.934928091542375]
大規模言語モデル (LLM) のバックボーンに高密度レトリバーを拡張させることは, 検索効率を向上させる主要な戦略である。
本稿では,機能ベースの擬似関連フィードバック(PRF)フレームワークであるPromptPRFを紹介する。
論文 参考訳(メタデータ) (2025-03-19T04:30:20Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - A Reproducibility and Generalizability Study of Large Language Models for Query Generation [14.172158182496295]
生成AIと大規模言語モデル(LLM)は、体系的な文献レビュープロセスに革命をもたらすことを約束する。
本稿では,LLMを用いたBooleanクエリ生成を体系的レビューのために広範囲に研究する。
本研究は,ChatGPTを用いて得られた結果の複製性と信頼性について検討した。
次に、オープンソースモデルの解析と評価により結果を一般化する。
論文 参考訳(メタデータ) (2024-11-22T13:15:03Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。