Fugu-MT 論文翻訳(概要): Improving Answer Extraction in Context-based Question Answering Systems Using LLMs

論文の概要: Improving Answer Extraction in Context-based Question Answering Systems Using LLMs

arxiv url: http://arxiv.org/abs/2606.06197v1
Date: Thu, 04 Jun 2026 14:04:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.839578
Title: Improving Answer Extraction in Context-based Question Answering Systems Using LLMs
Title（参考訳）: LLMを用いた文脈ベース質問応答システムにおける回答抽出の改善
Authors: Hafez Abdelghaffar, Ahmed Alansary, Ali Hamdi,
Abstract要約: 本稿では,テキストコンテキストと対応する質問からなる大言語モデルに基づく質問応答システムを提案する。提案手法では,事前学習したLCMをベンチマークQAデータセット上で微調整し,文脈理解と回答抽出能力を向上させる。実験の結果、微調整されたロバータベースモデルが最も高い性能を示し、ROUGE-Lスコアは86.84%、BLEUスコアは28.24%、BERTSスコアは95.38%に達した。
参考スコア（独自算出の注目度）: 0.25489046505746704
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Question answering (QA) systems have achieved notable progress with the advent of large language models (LLMs). However, they still face challenges in accurately extracting and generating precise answers from given contexts, particularly when dealing with complex or ambiguous queries. Existing approaches often struggle with contextual understanding, answer consistency, and generalization across diverse domains. In this work, we propose a question answering system based on large language models, where the input consists of a textual context and a corresponding question, and the output is a concise and accurate answer. The motivation behind this research lies in addressing the limitations of current QA systems, particularly their tendency to produce irrelevant or imprecise responses despite having access to the correct context. Our methodology involves fine-tuning a pre-trained LLM on a benchmark QA dataset to improve its contextual comprehension and answer extraction capabilities. Specifically, we utilize the Stanford Question Answering Dataset (SQuAD1.1), which provides high-quality context-question-answer triplets for supervised training and evaluation. Experimental results show that the fine-tuned Roberta-base model achieves the highest performance, attaining a ROUGE-L score of 86.84%, a BLEU score of 28.24%, and a BERTScore of 95.38%. These results indicate strong accuracy and answer relevance, demonstrating the effectiveness of the proposed approach for context-based question answering tasks. Furthermore, the findings confirm that targeted fine-tuning substantially improves the reliability and precision of QA systems.
Abstract（参考訳）: 質問応答 (QA) システムは,大規模言語モデル (LLM) の出現によって顕著な進歩を遂げている。しかし、複雑なクエリやあいまいなクエリを扱う場合、与えられたコンテキストから正確な回答を正確に抽出し、生成する上で、依然として課題に直面している。既存のアプローチは、コンテキスト理解、応答整合性、および様々な領域にわたる一般化にしばしば苦労する。本研究では,大規模言語モデルに基づく質問応答システムを提案する。そこでは,入力はテキストコンテキストと対応する質問で構成され,出力は簡潔で正確な回答である。この研究の背後にあるモチベーションは、現在のQAシステムの制限、特に、正しいコンテキストにアクセスできるにもかかわらず、無関係または不正確な応答を生み出す傾向に対処することにある。提案手法では,事前学習したLCMをベンチマークQAデータセット上で微調整し,文脈理解と回答抽出能力を向上させる。具体的には,SQuAD1.1(Stanford Question Answering Dataset)を用いて,教師付きトレーニングと評価を行う。実験の結果、微調整されたロバータベースモデルが最も高い性能を示し、ROUGE-Lスコアは86.84%、BLEUスコアは28.24%、BERTSスコアは95.38%に達した。これらの結果から,文脈に基づく質問応答課題に対する提案手法の有効性が示された。さらに, 目標微調整によりQAシステムの信頼性と精度が著しく向上することが確認された。

関連論文リスト

Inferential Question Answering [67.54465021408724]
新しいタスクであるInferential QAを導入します。これは、答えをサポートするパスから答えを推測するためにモデルに挑戦するものです。そこで本研究では,7,401問と2.4M節からなるQUITデータセットを構築した。我々は,従来のQAタスクに有効な手法が推論QAに苦しむことを示し,レトリバーは性能が低下し,リランカーは利得が制限され,微調整は不整合の改善をもたらすことを示した。
論文参考訳（メタデータ） (2026-02-01T14:02:43Z)
ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。 ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文参考訳（メタデータ） (2025-11-27T19:01:02Z)
Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。 PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文参考訳（メタデータ） (2025-09-23T14:44:46Z)
Long-context Non-factoid Question Answering in Indic Languages [39.66936316245065]
質問回答タスクは、与えられたコンテキストから回答を抽出する。長期のコンテキストは、自己認識機構の複雑さのために課題を引き起こす。 Indic言語におけるQA性能向上のための文脈ショートニング手法について検討した。
論文参考訳（メタデータ） (2025-04-18T10:43:21Z)
FactGuard: Leveraging Multi-Agent Systems to Generate Answerable and Unanswerable Questions for Enhanced Long-Context LLM Extraction [25.00896070082754]
抽出読解システムは、与えられたテキスト内の質問に対する正しい答えを見つけるように設計されている。永続的な課題は、これらのモデルが、答えられないクエリを確実に認識しながら、質問に答える上で高い精度を維持することである。マルチエージェント協調フレームワークを基盤とした革新的なデータ拡張手法を提案する。
論文参考訳（メタデータ） (2025-04-08T01:45:16Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。 LLMの既存の不確実量化法(UQ)は、応答性よりも応答性の方が早い。応答型UQフレームワークであるCoT-UQを提案する。
論文参考訳（メタデータ） (2025-02-24T14:48:06Z)
SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。 SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文参考訳（メタデータ） (2024-04-17T01:15:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。