Fugu-MT 論文翻訳(概要): AutoBool: An Reinforcement-Learning trained LLM for Effective Automated Boolean Query Generation for Systematic Reviews

論文の概要: AutoBool: An Reinforcement-Learning trained LLM for Effective Automated Boolean Query Generation for Systematic Reviews

arxiv url: http://arxiv.org/abs/2602.00005v1
Date: Fri, 21 Nov 2025 04:29:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-15 22:19:52.866128
Title: AutoBool: An Reinforcement-Learning trained LLM for Effective Automated Boolean Query Generation for Systematic Reviews
Title（参考訳）: AutoBool: システムレビューのための効果的なブールクエリ生成のための強化学習型LLM
Authors: Shuai Wang, Harrisen Scells, Bevan Koopman, Guido Zuccon,
Abstract要約: AutoBoolは,大規模言語モデル(LLM)をトレーニングして,効果的なBooleanクエリを生成するフレームワークである。トレーニング用のトピックとして65588という,その種類で最も大きなデータセットをリリースしています。実験の結果、AutoBoolはゼロショット/フェーショットのプロンプトを著しく上回り、GPTベースのモデルよりもはるかに大きなモデルの有効性を達成または上回っていることがわかった。
参考スコア（独自算出の注目度）: 42.03242247233896
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present AutoBool, a reinforcement learning (RL) framework that trains large language models (LLMs) to generate effective Boolean queries for medical systematic reviews. Boolean queries are the primary mechanism for literature retrieval in this domain and must achieve high recall while maintaining reasonable precision - a challenging balance that existing prompt-based LLM approaches often struggle to achieve. A major limitation in this space is the lack of high-quality ground-truth Boolean queries for each topic, which makes supervised fine-tuning impractical. AutoBool addresses this challenge by using RL to directly optimize query generation with retrieval measures, without requiring target queries. To support this effort, we create and release the largest dataset of its kind: 65588 topics in total for training and evaluating the task of automatic Boolean query formulation. Experiments on our new dataset and two established datasets (CLEF TAR and Seed Collection) show that AutoBool significantly outperforms zero shot/few shot prompting and matches or exceeds the effectiveness of much larger GPT-based models (e.g., GPT-4o, O3) using smaller backbones. It also approaches effectiveness of expert-authored queries while retrieving 10 to 16 times fewer documents. Ablation studies reveal the critical roles of model backbone, size, decoding temperature, and prompt design. Code and data are available at https://github.com/ielab/AutoBool.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)を学習し,効果的なブールクエリを生成するための強化学習(RL)フレームワークであるAutoBoolを提案する。ブールクエリは、この領域で文学検索の主要なメカニズムであり、適切な精度を維持しながら高いリコールを達成する必要がある。この領域における大きな制限は、各トピックに対する高品質な地味なブールクエリが欠如していることであり、教師付き微調整は非現実的である。 AutoBoolはこの課題に対処するため、ターゲットクエリを必要とせずに、RLを使用してクエリ生成を検索手段で直接最適化する。この取り組みをサポートするため、私たちは、Booleanクエリの自動定式化のタスクをトレーニングし評価するために、65588トピックという、その種類の最大のデータセットを作成し、リリースします。新たなデータセットと2つの確立されたデータセット(CLEF TARとSeed Collection)の実験から、AutoBoolはゼロショット/フェーショットのプロンプトを著しく上回り、より小さなバックボーンを使用したGPTベースのモデル(例:GPT-4o, O3)の有効性をはるかに上回っている。また、専門家によるクエリの有効性にもアプローチし、10倍から16倍のドキュメントを検索する。アブレーション研究は、モデルバックボーン、サイズ、デコード温度、そして迅速な設計の重要な役割を明らかにしている。コードとデータはhttps://github.com/ielab/AutoBool.comで公開されている。

関連論文リスト

MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。 Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。 MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文参考訳（メタデータ） (2025-10-31T15:51:39Z)
Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文参考訳（メタデータ） (2025-10-20T04:16:28Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Learning to Rank Chain-of-Thought: Using a Small Model [77.75522308463667]
本稿では、この課題に対処するために設計された高効率で軽量な検証器であるEORM(Energy Outcome Reward Model)を紹介する。 EORMはエネルギーベースのフレームワークを使用してChain-of-Thought(CoT)ソリューションをランク付けし、単純な結果ラベルだけで誤った推論と正しく区別することを学ぶ。 55Mのパラメータだけで、通常の報酬モデルより127倍以上小さいEORMは、Llama 3 8Bの精度をGSM8kで90.7%、MATHで63.7%に向上させた。
論文参考訳（メタデータ） (2025-05-21T01:06:29Z)
Pseudo Relevance Feedback is Enough to Close the Gap Between Small and Large Dense Retrieval Models [29.934928091542375]
大規模言語モデル (LLM) のバックボーンに高密度レトリバーを拡張させることは, 検索効率を向上させる主要な戦略である。本稿では,機能ベースの擬似関連フィードバック(PRF)フレームワークであるPromptPRFを紹介する。
論文参考訳（メタデータ） (2025-03-19T04:30:20Z)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳（メタデータ） (2025-03-12T16:26:39Z)
A Reproducibility and Generalizability Study of Large Language Models for Query Generation [14.172158182496295]
生成AIと大規模言語モデル(LLM)は、体系的な文献レビュープロセスに革命をもたらすことを約束する。本稿では,LLMを用いたBooleanクエリ生成を体系的レビューのために広範囲に研究する。本研究は,ChatGPTを用いて得られた結果の複製性と信頼性について検討した。次に、オープンソースモデルの解析と評価により結果を一般化する。
論文参考訳（メタデータ） (2024-11-22T13:15:03Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文参考訳（メタデータ） (2024-06-13T23:08:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。