論文の概要: AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization
- arxiv url: http://arxiv.org/abs/2111.06474v1
- Date: Thu, 11 Nov 2021 21:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 22:47:59.153338
- Title: AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization
- Title(参考訳): AnswerSumm: 回答要約のための手動計算データセットとパイプライン
- Authors: Alexander R. Fabbri, Xiaojian Wu, Srini Iyer, Haoran Li, Mona Diab
- Abstract要約: Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
- 参考スコア(独自算出の注目度): 73.91543616777064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Community Question Answering (CQA) fora such as Stack Overflow and Yahoo!
Answers contain a rich resource of answers to a wide range of community-based
questions. Each question thread can receive a large number of answers with
different perspectives. One goal of answer summarization is to produce a
summary that reflects the range of answer perspectives. A major obstacle for
abstractive answer summarization is the absence of a dataset to provide
supervision for producing such summaries. Recent works propose heuristics to
create such data, but these are often noisy and do not cover all perspectives
present in the answers. This work introduces a novel dataset of 4,631 CQA
threads for answer summarization, curated by professional linguists. Our
pipeline gathers annotations for all subtasks involved in answer summarization,
including the selection of answer sentences relevant to the question, grouping
these sentences based on perspectives, summarizing each perspective, and
producing an overall summary. We analyze and benchmark state-of-the-art models
on these subtasks and introduce a novel unsupervised approach for
multi-perspective data augmentation, that further boosts overall summarization
performance according to automatic evaluation. Finally, we propose
reinforcement learning rewards to improve factual consistency and answer
coverage and analyze areas for improvement.
- Abstract(参考訳): Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
各質問スレッドは、異なる視点で多数の回答を受け取ることができる。
回答要約の1つの目標は、回答の観点の範囲を反映した要約を作ることである。
抽象的回答要約の主要な障害は、このような要約を生成するための監督を提供するデータセットがないことである。
最近の研究は、そのようなデータを作成するためのヒューリスティックスを提案するが、それらはしばしば騒がしく、回答に存在するすべての視点をカバーするものではない。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
パイプラインは,回答の要約に関わるすべてのサブタスクに対してアノテーションを収集し,質問に関連する回答文の選択,視点に基づいてこれらの文をグループ化し,各視点を要約し,全体的な要約を生成する。
これらのサブタスクにおける最先端モデルの解析とベンチマークを行い,マルチパースペクティブデータ拡張のための新しい教師なしアプローチを導入し,自動評価により総和性能をさらに向上させる。
最後に,事実整合性と回答カバレッジを改善し,改善のための領域を分析するための強化学習報酬を提案する。
関連論文リスト
- Aspect-oriented Consumer Health Answer Summarization [2.298110639419913]
コミュニティ質問回答(Community Question-Answering、CQA)フォーラムは、人々が情報を求める方法、特に医療ニーズに関連するものに革命をもたらした。
単一のクエリに対する応答にはいくつかの回答があるため、特定の健康上の懸念に関連する重要な情報を把握することが難しくなる。
本研究は、この制限に対処するために、側面に基づく健康回答の要約に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-10T07:52:43Z) - Answering Subjective Induction Questions on Products by Summarizing
Multi-sources Multi-viewpoints Knowledge [0.04791377777154766]
本稿では,製品に対する主観的誘導質問に対する回答の分野における新しい課題を提案する。
この種の質問に対する答えは普遍的ではないが、多くの観点から解釈できる。
満足した答えは、これらの主観的な意見を複数の情報源から要約し、客観的な知識を提供することができるべきである。
論文 参考訳(メタデータ) (2023-09-12T03:27:08Z) - Concise Answers to Complex Questions: Summarization of Long-form Answers [27.190319030219285]
我々は,最先端モデルから生成された要約された回答と,新たに提案した抽出・デコンテクライズ手法について,ユーザスタディを行った。
複雑で暗黙的な解答は圧縮が困難であるのに対し、少なくとも1つのシステムによって、大量の長文解答を適切に要約できることがわかった。
要約作業において,非コンテクスト化によって抽出された要約の質が向上し,その可能性を実証する。
論文 参考訳(メタデータ) (2023-05-30T17:59:33Z) - MQAG: Multiple-choice Question Answering and Generation for Assessing
Information Consistency in Summarization [55.60306377044225]
最先端の要約システムは高度に流動的な要約を生成することができる。
しかし、これらの要約には、情報源に存在しない事実上の矛盾や情報が含まれている可能性がある。
本稿では,ソース情報と要約情報を直接比較する,標準的な情報理論に基づく代替手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T23:08:25Z) - Answer Consolidation: Formulation and Benchmarking [35.38034364777484]
我々は、回答を複数のグループに分割する、回答統合の問題を定式化する。
包括的で非冗長な答えの集合は、各グループから1つの答えを選択することで構成できる。
最高のパフォーマンスの教師付きモデルによって達成される有望なパフォーマンスにもかかわらず、このタスクにはさらなる改善の余地があると考えています。
論文 参考訳(メタデータ) (2022-04-29T18:57:23Z) - Summarization with Graphical Elements [55.5913491389047]
本稿では,グラフィカル要素による要約という新しい課題を提案する。
タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。
論文 参考訳(メタデータ) (2022-04-15T17:16:41Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - Multi-Perspective Abstractive Answer Summarization [76.10437565615138]
コミュニティ質問応答フォーラムには、幅広い質問に対する回答の豊富なリソースが含まれている。
マルチパースペクティブな回答要約の目標は、答えのすべての観点を含む要約を作成することである。
本研究は,多視点抽象要約を自動生成する新しいデータセット作成手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T13:15:29Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。