論文の概要: A Reproducibility and Generalizability Study of Large Language Models for Query Generation
- arxiv url: http://arxiv.org/abs/2411.14914v1
- Date: Fri, 22 Nov 2024 13:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:02:23.175071
- Title: A Reproducibility and Generalizability Study of Large Language Models for Query Generation
- Title(参考訳): クエリ生成のための大規模言語モデルの再現性と一般化可能性に関する研究
- Authors: Moritz Staudinger, Wojciech Kusa, Florina Piroi, Aldo Lipani, Allan Hanbury,
- Abstract要約: 生成AIと大規模言語モデル(LLM)は、体系的な文献レビュープロセスに革命をもたらすことを約束する。
本稿では,LLMを用いたBooleanクエリ生成を体系的レビューのために広範囲に研究する。
本研究は,ChatGPTを用いて得られた結果の複製性と信頼性について検討した。
次に、オープンソースモデルの解析と評価により結果を一般化する。
- 参考スコア(独自算出の注目度): 14.172158182496295
- License:
- Abstract: Systematic literature reviews (SLRs) are a cornerstone of academic research, yet they are often labour-intensive and time-consuming due to the detailed literature curation process. The advent of generative AI and large language models (LLMs) promises to revolutionize this process by assisting researchers in several tedious tasks, one of them being the generation of effective Boolean queries that will select the publications to consider including in a review. This paper presents an extensive study of Boolean query generation using LLMs for systematic reviews, reproducing and extending the work of Wang et al. and Alaniz et al. Our study investigates the replicability and reliability of results achieved using ChatGPT and compares its performance with open-source alternatives like Mistral and Zephyr to provide a more comprehensive analysis of LLMs for query generation. Therefore, we implemented a pipeline, which automatically creates a Boolean query for a given review topic by using a previously defined LLM, retrieves all documents for this query from the PubMed database and then evaluates the results. With this pipeline we first assess whether the results obtained using ChatGPT for query generation are reproducible and consistent. We then generalize our results by analyzing and evaluating open-source models and evaluating their efficacy in generating Boolean queries. Finally, we conduct a failure analysis to identify and discuss the limitations and shortcomings of using LLMs for Boolean query generation. This examination helps to understand the gaps and potential areas for improvement in the application of LLMs to information retrieval tasks. Our findings highlight the strengths, limitations, and potential of LLMs in the domain of information retrieval and literature review automation.
- Abstract(参考訳): 体系的文献レビュー(SLR)は学術研究の基盤であるが、詳細な文献のキュレーションプロセスのため、労働集約的で時間を要することが多い。
ジェネレーティブAIと大規模言語モデル(LLM)の出現は、いくつかの面倒なタスクで研究者を支援することによって、このプロセスに革命をもたらすことを約束している。
本稿では,Wang et al と Alaniz et al の業績を体系的にレビューし,再現し,拡張するために LLM を用いた Boolean クエリ生成について,ChatGPT を用いた結果の再現性と信頼性について検討し,その性能を Mistral や Zephyr といったオープンソースの代替技術と比較することにより,クエリ生成のための LLM のより包括的な解析を行う。
そこで我々は,事前に定義されたLCMを用いて,所定のレビュートピックに対してBooleanクエリを自動生成するパイプラインを実装し,PubMedデータベースからこのクエリのすべてのドキュメントを検索し,その結果を評価する。
このパイプラインで、クエリ生成にChatGPTを使用した結果が再現可能で一貫性があるかどうかを最初に評価する。
次に、オープンソースのモデルを分析し評価し、Booleanクエリ生成の有効性を評価することで、結果を一般化する。
最後に、ブールクエリ生成にLLMを使うことの限界と欠点を特定し、議論するために、障害解析を行う。
本研究は,LLMを情報検索タスクに適用する際のギャップと潜在的な領域を理解するのに役立つ。
本研究は,情報検索と文献レビュー自動化の分野におけるLCMの強み,限界,および可能性を明らかにするものである。
関連論文リスト
- Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Evaluating ChatGPT on Nuclear Domain-Specific Data [0.0]
本稿では,大規模言語モデル(LLM)であるChatGPTの,高度に専門化された核データ分野におけるQ&Aタスクへの適用について検討する。
主な焦点は、キュレートされたテストデータセット上でのChatGPTのパフォーマンスの評価である。
LLMにRAGパイプラインを組み込むことにより, 性能の向上が図られた。
論文 参考訳(メタデータ) (2024-08-26T08:17:42Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - CHIQ: Contextual History Enhancement for Improving Query Rewriting in Conversational Search [67.6104548484555]
我々は,オープンソースの大規模言語モデル(LLM)の機能を活用して,クエリ書き換え前の会話履歴の曖昧さを解消する2段階の手法であるCHIQを紹介する。
我々は、CHIQがほとんどの設定で最先端の結果をもたらす、よく確立された5つのベンチマークを実証する。
論文 参考訳(メタデータ) (2024-06-07T15:23:53Z) - Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.046603287532620746]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文 参考訳(メタデータ) (2024-03-23T00:49:40Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z) - Automatic Evaluation of Attribution by Large Language Models [24.443271739599194]
大規模言語モデル(LLM)による属性の自動評価について検討する。
まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。
生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
論文 参考訳(メタデータ) (2023-05-10T16:58:33Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。