論文の概要: Structured List-Grounded Question Answering
- arxiv url: http://arxiv.org/abs/2410.03950v1
- Date: Fri, 4 Oct 2024 22:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:10:07.524885
- Title: Structured List-Grounded Question Answering
- Title(参考訳): リストを囲む構造的質問応答
- Authors: Mujeen Sung, Song Feng, James Gung, Raphael Shu, Yi Zhang, Saab Mansour,
- Abstract要約: 文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。
従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見下ろしている。
本稿では,構造化リストの解釈と利用を改善するために,質問応答システムを強化することを目的とする。
- 参考スコア(独自算出の注目度): 11.109829342410265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-grounded dialogue systems aim to answer user queries by leveraging external information. Previous studies have mainly focused on handling free-form documents, often overlooking structured data such as lists, which can represent a range of nuanced semantic relations. Motivated by the observation that even advanced language models like GPT-3.5 often miss semantic cues from lists, this paper aims to enhance question answering (QA) systems for better interpretation and use of structured lists. To this end, we introduce the LIST2QA dataset, a novel benchmark to evaluate the ability of QA systems to respond effectively using list information. This dataset is created from unlabeled customer service documents using language models and model-based filtering processes to enhance data quality, and can be used to fine-tune and evaluate QA models. Apart from directly generating responses through fine-tuned models, we further explore the explicit use of Intermediate Steps for Lists (ISL), aligning list items with user backgrounds to better reflect how humans interpret list items before generating responses. Our experimental results demonstrate that models trained on LIST2QA with our ISL approach outperform baselines across various metrics. Specifically, our fine-tuned Flan-T5-XL model shows increases of 3.1% in ROUGE-L, 4.6% in correctness, 4.5% in faithfulness, and 20.6% in completeness compared to models without applying filtering and the proposed ISL method.
- Abstract(参考訳): 文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。
従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見渡す。
GPT-3.5のような先進言語モデルでさえ、しばしばリストのセマンティックな手がかりを見逃してしまうという観察に触発された本論文は、構造化リストの解釈と使用を改善するための質問応答システム(QA)を強化することを目的としている。
この目的のために、リスト情報を用いてQAシステムが効果的に応答する能力を評価するための新しいベンチマークであるLIST2QAデータセットを導入する。
このデータセットは、言語モデルとモデルベースのフィルタリングプロセスを使用して、ラベルなしの顧客サービスドキュメントから作成され、データ品質を向上させる。
微調整されたモデルによる応答を直接生成することとは別に、リスト項目をユーザ背景と整合させて、人間が応答を生成する前にリスト項目をどのように解釈するかをよりよく反映する、ISL(Intermediate Steps for Lists)の明示的な使用についても検討する。
実験結果から,LIST2QAでトレーニングしたモデルとISLアプローチが,様々な指標のベースラインより優れていることが示された。
具体的には,Flan-T5-XLモデルでは,ROUGE-Lでは3.1%,精度は4.6%,忠実度は4.5%,完全度は20.6%であった。
関連論文リスト
- A RAG-Based Institutional Assistant [0.1499944454332829]
我々は,サンパウロ大学に特化されたRAGベースの仮想アシスタントの設計と評価を行った。
最適レトリバーモデルではトップ5の精度が30%,最も有効な生成モデルでは22.04%,真理回答では22.04%のスコアが得られた。
論文 参考訳(メタデータ) (2025-01-23T17:54:19Z) - RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance [28.63893944806149]
Retrieval-augmented Generation (RAG)は、外部知識を用いて、応答生成をガイドし、幻覚を減らすことで、大きな言語モデルを改善する。
RAGは新しい幻覚源を導入することができる: (i) 検索プロセスはデータベースから無関係な部分を生のコンテキストとして選択でき、 (ii) 検索された画像はテキストベースのコンテキストに処理される。
i)関連度スコア(RS)、検索項目の関連性の評価、(ii)正しさスコア(CS)、生成した応答の正確性の評価の2つのパフォーマンス尺度を用いてマルチモーダルRAGの信頼性を評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-07T18:52:05Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z) - NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。
FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文 参考訳(メタデータ) (2024-02-28T16:59:35Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。