論文の概要: Evaluating Prompt Engineering Techniques for RAG in Small Language Models: A Multi-Hop QA Approach
- arxiv url: http://arxiv.org/abs/2602.13890v1
- Date: Sat, 14 Feb 2026 21:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.543135
- Title: Evaluating Prompt Engineering Techniques for RAG in Small Language Models: A Multi-Hop QA Approach
- Title(参考訳): 小言語モデルにおけるRAGのプロンプトエンジニアリング手法の評価:マルチホップQAアプローチ
- Authors: Amir Hossein Mohammadi, Ali Moeinian, Zahra Razavizade, Afsaneh Fatemi, Reza Ramezani,
- Abstract要約: Retrieval Augmented Generation (RAG)は、外部知識を統合することで言語モデルの現実的な基盤を強化するための強力なアプローチである。
本稿では,プロンプトテンプレート設計がRAG性能に与える影響を大規模に検討する。
その結果,Qwen2.5では83%,Gemma3-4B-Itでは84.5%の大幅なパフォーマンス向上が確認された。
- 参考スコア(独自算出の注目度): 9.672512327395435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval Augmented Generation (RAG) is a powerful approach for enhancing the factual grounding of language models by integrating external knowledge. While widely studied for large language models, the optimization of RAG for Small Language Models (SLMs) remains a critical research gap, particularly in complex, multi-hop question-answering tasks that require sophisticated reasoning. In these systems, prompt template design is a crucial yet under-explored factor influencing performance. This paper presents a large-scale empirical study to investigate this factor, evaluating 24 different prompt templates on the HotpotQA dataset. The set includes a standard RAG prompt, nine well-formed techniques from the literature, and 14 novel hybrid variants, all tested on two prominent SLMs: Qwen2.5-3B Instruct and Gemma3-4B-It. Our findings, based on a test set of 18720 instances, reveal significant performance gains of up to 83% on Qwen2.5 and 84.5% on Gemma3-4B-It, yielding an improvement of up to 6% for both models compared to the Standard RAG prompt. This research also offers concrete analysis and actionable recommendations for designing effective and efficient prompts for SLM-based RAG systems, practically for deployment in resource-constrained environments.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)は、外部知識を統合することで言語モデルの現実的な基盤を強化するための強力なアプローチである。
大規模言語モデルでは広く研究されているが、SLM(Small Language Models)のためのRAG(RAG for Small Language Models)の最適化は、特に高度な推論を必要とする複雑でマルチホップな質問応答タスクにおいて重要な研究ギャップを保っている。
これらのシステムでは、プロンプトテンプレート設計が性能に影響を与える重要な要因である。
本稿では,HotpotQAデータセット上で24種類のプロンプトテンプレートを評価し,この要因を大規模に検討する。
このセットには標準的なRAGプロンプト、文学の9つの優れた技術、14種類の新しいハイブリッド版が含まれており、いずれもQwen2.5-3B InstructとGemma3-4B-Itの2つの著名なSLMでテストされている。
その結果,Qwen2.5では最大83%,Gemma3-4B-Itでは84.5%,両モデルともに最大6%向上した。
本研究は,SLMに基づくRAGシステムにおいて,資源制約のある環境への展開を効果的かつ効果的に行うための具体的な分析と実用的なレコメンデーションを提供する。
関連論文リスト
- LIR$^3$AG: A Lightweight Rerank Reasoning Strategy Framework for Retrieval-Augmented Generation [12.734342155120979]
RAGマルチホップQAタスクにおける推論モデルの推論戦略について検討する。
その結果, 推論モデルでは, 検索知識と内部知識を統合化するための構造化戦略が採用されていることがわかった。
本稿では,RAGのための軽量Rerank Reasoning Strategy Frameworkを提案する。
論文 参考訳(メタデータ) (2025-12-20T11:53:37Z) - Prompting Strategies for Language Model-Based Item Generation in K-12 Education: Bridging the Gap Between Small and Large Language Models [5.584522240405349]
本研究では、言語モデルを用いた自動生成(AIG)を用いて、形態的評価のための複数選択質問(MCQ)を作成する。
ゼロショット,少数ショット,チェーンオブ思考,ロールベース,シーケンシャル,組み合わせを含む7つの構造化プロンプト戦略を評価した。
その結果,構造的プロンプト,特にチェーン・オブ・シンクショナルデザインとシーケンシャルデザインを組み合わせた戦略はGemmaの出力を大幅に改善した。
論文 参考訳(メタデータ) (2025-08-27T18:54:32Z) - Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。