論文の概要: Human-in-the-loop Abstractive Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2212.09750v1
- Date: Mon, 19 Dec 2022 19:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:41:30.332447
- Title: Human-in-the-loop Abstractive Dialogue Summarization
- Title(参考訳): ヒューマン・イン・ザ・ループ抽象対話要約
- Authors: Jiaao Chen, Mohan Dodda, Diyi Yang
- Abstract要約: 我々は、異なるレベルの人間のフィードバックをトレーニングプロセスに組み込むことを提案する。
これにより、モデルをガイドして、人間が要約に用いている振る舞いを捉えることができます。
- 参考スコア(独自算出の注目度): 61.4108097664697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstractive dialogue summarization has received increasing attention
recently. Despite the fact that most of the current dialogue summarization
systems are trained to maximize the likelihood of human-written summaries and
have achieved significant results, there is still a huge gap in generating
high-quality summaries as determined by humans, such as coherence and
faithfulness, partly due to the misalignment in maximizing a single
human-written summary. To this end, we propose to incorporate different levels
of human feedback into the training process. This will enable us to guide the
models to capture the behaviors humans care about for summaries. Specifically,
we ask humans to highlight the salient information to be included in summaries
to provide the local feedback , and to make overall comparisons among summaries
in terms of coherence, accuracy, coverage, concise and overall quality, as the
global feedback. We then combine both local and global feedback to fine-tune
the dialog summarization policy with Reinforcement Learning. Experiments
conducted on multiple datasets demonstrate the effectiveness and generalization
of our methods over the state-of-the-art supervised baselines, especially in
terms of human judgments.
- Abstract(参考訳): 近年,抽象対話要約が注目されている。
現在の対話要約システムのほとんどは、人文要約の可能性を最大化するために訓練されており、大きな成果を上げているにもかかわらず、人間によって決定されるコヒーレンスや忠実さなどの高品質な要約の生成には大きなギャップがある。
そこで本研究では,異なるレベルのフィードバックをトレーニングプロセスに組み込むことを提案する。
これにより、モデルをガイドして、人間が要約に関心を持つ行動を捉えることができます。
具体的には,世界的フィードバックとして,要約に含まれる有能な情報を強調して局所的なフィードバックを提供するとともに,コヒーレンス,正確性,カバレッジ,簡潔さ,全体的な品質の観点から,要約間の総合的な比較を行う。
次に,ローカルフィードバックとグローバルフィードバックを組み合わせることで,ダイアログ要約ポリシーと強化学習を微調整する。
複数のデータセットで行った実験は、最先端の教師付きベースライン、特に人間の判断の観点から、我々の手法の有効性と一般化を実証している。
関連論文リスト
- GUMSum: Multi-Genre Data and Evaluation for English Abstractive
Summarization [10.609715843964263]
事前学習された言語モデルによる自動要約は、驚くほど流動的な結果をもたらすが、"幻覚"の傾向にある。
GUMSumは、抽象的な要約を評価するために、12の言語ジャンルで書かれた英語の要約のデータセットである。
論文 参考訳(メタデータ) (2023-06-20T03:21:10Z) - Factually Consistent Summarization via Reinforcement Learning with
Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。
我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。
自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-05-31T21:04:04Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - SummIt: Iterative Text Summarization via ChatGPT [12.966825834765814]
本稿では,ChatGPTのような大規模言語モデルに基づく反復的なテキスト要約フレームワークSummItを提案する。
我々のフレームワークは、自己評価とフィードバックによって生成された要約を反復的に洗練することを可能にする。
また, 繰り返し改良の有効性を検証し, 過補正の潜在的な問題を特定するために, 人間の評価を行う。
論文 参考訳(メタデータ) (2023-05-24T07:40:06Z) - Improving Faithfulness of Abstractive Summarization by Controlling
Confounding Effect of Irrelevant Sentences [38.919090721583075]
事実整合性は、共同創設者として機能する入力テキストの無関係な部分によって引き起こされる可能性があることを示す。
そこで我々は,人間が記述した関連文を利用できる場合に利用することにより,そのような欠点を抑えるためのシンプルなマルチタスクモデルを設計する。
提案手法は,AnswerSumm citepfabbri 2021answersummデータセットの強いベースラインに対して,忠実度スコアを20%向上させる。
論文 参考訳(メタデータ) (2022-12-19T18:51:06Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - Controllable Abstractive Dialogue Summarization with Sketch Supervision [56.59357883827276]
本モデルは,最大50.79のROUGE-Lスコアを持つ最大対話要約コーパスSAMSumの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-28T19:05:36Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。