論文の概要: Comparing the Performance of LLMs in RAG-based Question-Answering: A Case Study in Computer Science Literature
- arxiv url: http://arxiv.org/abs/2511.03261v1
- Date: Wed, 05 Nov 2025 07:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.378587
- Title: Comparing the Performance of LLMs in RAG-based Question-Answering: A Case Study in Computer Science Literature
- Title(参考訳): RAGに基づく質問応答におけるLCMの性能比較:コンピュータサイエンス文学を事例として
- Authors: Ranul Dayarathne, Uvini Ranaweera, Upeksha Ganegoda,
- Abstract要約: Retrieval Augmented Generation(RAG)は、ジェネレーティブAIモデルの能力を高めるための強力なテクニックとして登場している。
本研究では,オープンソースの4つのLLM,Mistral-7b-instruct,LLaMa2-7b-chat,Falcon-7b-instruct,Orca-mini-v3-7b,およびQAタスクに対するOpenAIのトレンドGPT-3.5の性能を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval Augmented Generation (RAG) is emerging as a powerful technique to enhance the capabilities of Generative AI models by reducing hallucination. Thus, the increasing prominence of RAG alongside Large Language Models (LLMs) has sparked interest in comparing the performance of different LLMs in question-answering (QA) in diverse domains. This study compares the performance of four open-source LLMs, Mistral-7b-instruct, LLaMa2-7b-chat, Falcon-7b-instruct and Orca-mini-v3-7b, and OpenAI's trending GPT-3.5 over QA tasks within the computer science literature leveraging RAG support. Evaluation metrics employed in the study include accuracy and precision for binary questions and ranking by a human expert, ranking by Google's AI model Gemini, alongside cosine similarity for long-answer questions. GPT-3.5, when paired with RAG, effectively answers binary and long-answer questions, reaffirming its status as an advanced LLM. Regarding open-source LLMs, Mistral AI's Mistral-7b-instruct paired with RAG surpasses the rest in answering both binary and long-answer questions. However, among the open-source LLMs, Orca-mini-v3-7b reports the shortest average latency in generating responses, whereas LLaMa2-7b-chat by Meta reports the highest average latency. This research underscores the fact that open-source LLMs, too, can go hand in hand with proprietary models like GPT-3.5 with better infrastructure.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)は、幻覚を減らして生成AIモデルの能力を向上する強力な技術として登場している。
このようにして、大規模言語モデル(LLM)と共にRAGが普及するにつれて、様々な領域における質問応答(QA)における異なるLLMの性能を比較することへの関心が高まっている。
本研究では,オープンソースの4つのLLM(Mistral-7b-instruct,LLaMa2-7b-chat,Falcon-7b-instruct,Orca-mini-v3-7b)と,RAGサポートを活用したコンピュータサイエンス文献におけるQAタスクに対するOpenAIのトレンドGPT-3.5の性能を比較した。
この研究で使用される評価指標には、バイナリ質問の正確性と正確性、人間の専門家によるランク付け、GoogleのAIモデルであるGeminiによるランク付け、長い質問に対するコサイン類似性などがある。
GPT-3.5は、RAGと組み合わせると、二分詞と長問詞を効果的に答え、高度なLCMとしての地位を再確認する。
オープンソースのLLMに関しては、Mistral AIのMistral-7bインストラクションとRAGをペアにすることで、バイナリと長い質問の両方に答えられる。
しかし、オープンソースのLLMの中では、Orca-mini-v3-7bがレスポンス生成の最も短い平均レイテンシを報告しているのに対し、LLaMa2-7b-chat by Metaは平均レイテンシを報告している。
この研究は、オープンソースのLLMも、GPT-3.5のようなプロプライエタリなモデルと、より優れたインフラで連携できるという事実を浮き彫りにしている。
関連論文リスト
- s3: You Don't Need That Much Data to Train a Search Agent via RL [34.862294169425724]
Retrieval-augmented Generation (RAG)システムでは、大規模言語モデル(LLM)が推論中に外部知識にアクセスできるようになる。
本稿では,検索者をジェネレータから切り離し,Gain Beyond RAG報酬を用いて検索者を訓練する,軽量でモデルに依存しないフレームワークであるs3を提案する。
論文 参考訳(メタデータ) (2025-05-20T09:53:56Z) - GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks [0.11458853556386796]
本稿では,大規模言語モデル(LLM)のツールコール能力を評価するためのベンチマークを確立する。
我々は,23の地理空間機能を備えた簡易なツールコールエージェントを用いて,8種類の商用LCM (Claude Sonnet 3.5, 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1, o4-mini) を評価した。
OpenAIのGPT-4.1、GPT-4o、GoogleのGemini 2.5 Pro Previewはそれほど遅れていないが、最後の2つはより効率的である。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。