Fugu-MT 論文翻訳(概要): Learning by Semantic Similarity Makes Abstractive Summarization Better

論文の概要: Learning by Semantic Similarity Makes Abstractive Summarization Better

arxiv url: http://arxiv.org/abs/2002.07767v2
Date: Wed, 2 Jun 2021 05:02:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 20:10:51.260803
Title: Learning by Semantic Similarity Makes Abstractive Summarization Better
Title（参考訳）: 意味的類似性による学習は抽象的要約をより良くする
Authors: Wonjin Yoon, Yoon Sun Yeo, Minbyul Jeong, Bong-Jun Yi, Jaewoo Kang
Abstract要約: 近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
参考スコア（独自算出の注目度）: 13.324006587838522
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: By harnessing pre-trained language models, summarization models had rapid progress recently. However, the models are mainly assessed by automatic evaluation metrics such as ROUGE. Although ROUGE is known for having a positive correlation with human evaluation scores, it has been criticized for its vulnerability and the gap between actual qualities. In this paper, we compare the generated summaries from recent LM, BART, and the reference summaries from a benchmark dataset, CNN/DM, using a crowd-sourced human evaluation metric. Interestingly, model-generated summaries receive higher scores relative to reference summaries. Stemming from our experimental results, we first argue the intrinsic characteristics of the CNN/DM dataset, the progress of pre-trained language models, and their ability to generalize on the training data. Finally, we share our insights into the model-generated summaries and presents our thought on learning methods for abstractive summarization.
Abstract（参考訳）: 事前訓練された言語モデルを利用することで、要約モデルは最近急速に進歩した。しかし、モデルは主にROUGEなどの自動評価指標によって評価される。 ROUGEは人間の評価スコアと正の相関を持つことで知られているが、その脆弱性と実際の品質の差が批判されている。本稿では,最近のLM, BART, およびベンチマークデータセットであるCNN/DMの参照要約を,クラウドソースによる人体評価指標を用いて比較する。興味深いことに、モデル生成要約は参照要約と比較して高いスコアを受け取る。実験結果から,まずcnn/dmデータセットの本質的特徴,事前学習された言語モデルの進展,トレーニングデータの一般化能力について考察した。最後に,モデル生成要約に関する知見を共有し,抽象要約のための学習方法を考える。

関連論文リスト

Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization [0.05852077003870416]
この研究は、トランスフォーマーベースのBARTモデルを利用して人間のような要約を行う。エンコーダ・デコーダモデルの訓練および微調整において,多種多様なサンプル記事を用いて検証を行った。微調整モデルの性能をベースライン事前訓練モデルと比較する。 BBC Newsの記事に載った実証的な結果は、人間によって書かれた金の標準要約の方が17%も現実的に一貫性があることを示している。
論文参考訳（メタデータ） (2024-10-22T09:25:04Z)
Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。我々は,教師モデルとしてPythia-2.8Bから出発する。我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文参考訳（メタデータ） (2024-03-20T17:42:08Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文参考訳（メタデータ） (2022-12-19T23:45:05Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)
CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in Abstractive Summarization [6.017006996402699]
我々は、与えられた記事に忠実で事実に整合した抽象的な要約を生成することを研究する。参照要約を正のトレーニングデータとして活用し、誤要約を負のトレーニングデータとして自動生成し、両者を区別し易い要約システムを訓練する、新しいコントラスト学習定式化を提案する。
論文参考訳（メタデータ） (2021-09-19T20:05:21Z)
Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文参考訳（メタデータ） (2020-10-05T05:04:14Z)
Learning to summarize from human feedback [18.964548137315333]
人間の嗜好を最適化するモデルを訓練することで、要約品質を著しく改善できることを示す。我々は、Reddit投稿のTL;DRデータセットのバージョンに適用し、我々のモデルは、人間の参照サマリーと、教師付き学習だけで微調整されたはるかに大きなモデルの両方を著しく上回っていることを発見した。我々のモデルは、CNN/DMニュース記事にも移行し、ニュース特有の微調整なしに、人間の参照とほぼ同等の要約を生成する。
論文参考訳（メタデータ） (2020-09-02T19:54:41Z)
SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文参考訳（メタデータ） (2020-07-24T16:25:19Z)
On Faithfulness and Factuality in Abstractive Summarization [17.261247316769484]
我々は抽象文書要約のためのニューラルテキスト生成モデルの制約を解析した。これらのモデルは、入力文書に反するコンテンツを幻覚させる傾向にあることがわかった。テキスト・エンタテインメントの指標は,標準指標よりも忠実度と相関性が高いことを示す。
論文参考訳（メタデータ） (2020-05-02T00:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。