論文の概要: GenSco: Can Question Decomposition based Passage Alignment improve Question Answering?
- arxiv url: http://arxiv.org/abs/2407.10245v1
- Date: Sun, 14 Jul 2024 15:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 18:59:20.297938
- Title: GenSco: Can Question Decomposition based Passage Alignment improve Question Answering?
- Title(参考訳): GenSco: 質問分解に基づくパスアライメントは質問回答を改善するか?
- Authors: Barah Fazili, Koustava Goswami, Natwar Modani, Inderjeet Nair,
- Abstract要約: ジェンスコ(GenSco)は,マルチホップ質問の予測分解に基づく経路選択手法である。
広範に確立された3つのマルチホップ質問応答データセットについて評価した。
- 参考スコア(独自算出の注目度): 1.5776201492893507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmented generation (RAG) with large language models (LLMs) for Question Answering (QA) entails furnishing relevant context within the prompt to facilitate the LLM in answer generation. During the generation, inaccuracies or hallucinations frequently occur due to two primary factors: inadequate or distracting context in the prompts, and the inability of LLMs to effectively reason through the facts. In this paper, we investigate whether providing aligned context via a carefully selected passage sequence leads to better answer generation by the LLM for multi-hop QA. We introduce, "GenSco", a novel approach of selecting passages based on the predicted decomposition of the multi-hop questions}. The framework consists of two distinct LLMs: (i) Generator LLM, which is used for question decomposition and final answer generation; (ii) an auxiliary open-sourced LLM, used as the scorer, to semantically guide the Generator for passage selection. The generator is invoked only once for the answer generation, resulting in a cost-effective and efficient approach. We evaluate on three broadly established multi-hop question answering datasets: 2WikiMultiHop, Adversarial HotPotQA and MuSiQue and achieve an absolute gain of $15.1$ and $5.9$ points in Exact Match score with respect to the best performing baselines over MuSiQue and 2WikiMultiHop respectively.
- Abstract(参考訳): 質問回答 (QA) のための言語モデル (LLM) を持つ検索用拡張生成 (RAG) は、回答生成において LLM を促進するためにプロンプト内で関連するコンテキストを織り込む必要がある。
世代間、不正確さや幻覚は、プロンプトにおける不適切な文脈や不適切な状況、そしてLSMが事実を効果的に説明できないという2つの主要な要因によってしばしば起こる。
本稿では,複数ホップQAにおけるLLMによる応答生成の精度向上を図るため,適切に選択されたシーケンスシーケンスによるコンテキストの整合性の実現について検討する。
本稿では,マルチホップ質問の予測分解に基づく経路選択手法であるGenScoを紹介する。
フレームワークは2つの異なるLLMで構成されている。
一 質問分解及び最終回答生成に使用するジェネレータLSM
(ii)スコアーとして使用される補助オープンソースLPMは、通過選択のためにジェネレータを意味的に案内する。
ジェネレータは応答生成のために1回だけ呼び出され、費用対効果と効率のよいアプローチをもたらす。
2WikiMultiHop, Adversarial HotPotQA, MuSiQue の3つの広く確立されたマルチホップ質問応答データセットについて評価し, MuSiQue と 2WikiMultiHop に対する最高のパフォーマンスベースラインに関して,Exact Match スコアで 15.1$ と 5.9$ の絶対的なゲインを得た。
関連論文リスト
- Learning When to Retrieve, What to Rewrite, and How to Respond in Conversational QA [16.1357049130957]
シングルターンSELF-RAGフレームワークを構築し,会話設定のためのSELF-multi-RAGを提案する。
SELF-multi-RAGは、関連するパスの検索に関して、シングルターン変種よりも改善された機能を示す。
論文 参考訳(メタデータ) (2024-09-23T20:05:12Z) - Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering [45.82437926569949]
マルチホップ質問回答タスクは、大きな言語モデルにとって大きな課題となる。
マルチホップ問題の解法として,ジェネレーションセブングラウンド(GenGround)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T06:26:38Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - GenDec: A robust generative Question-decomposition method for Multi-hop
reasoning [32.12904215053187]
マルチホップQAには、複雑な質問に答えるステップバイステップの推論が含まれる。
マルチホップ質問応答における既存の大規模言語モデル(LLM)推論能力は現在も探索が続けられている。
LLMが正しい結論に達するために望ましい推論連鎖に従うかどうかは不明である。
論文 参考訳(メタデータ) (2024-02-17T02:21:44Z) - Graph Elicitation for Guiding Multi-Step Reasoning in Large Language Models [16.432208223793666]
Chain-of-Thoughtはサブクエスト生成と応答を促進させ、多段階推論機能を強化した。
本稿では,GE-Reasoning法を提案する。
提案手法は,マルチホップ質問応答ベンチマークデータセットにおいて,従来のCoTプロンプト手法とその変種よりも優れていた。
論文 参考訳(メタデータ) (2023-11-16T10:36:08Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Improving Question Generation with Multi-level Content Planning [70.37285816596527]
本稿では、与えられたコンテキストと回答から質問を生成する問題に対処し、特に拡張されたコンテキストをまたいだマルチホップ推論を必要とする質問に焦点をあてる。
具体的には、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成した全回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントを含む。
論文 参考訳(メタデータ) (2023-10-20T13:57:01Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。