論文の概要: Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization
- arxiv url: http://arxiv.org/abs/2410.16842v1
- Date: Tue, 22 Oct 2024 09:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:24.680706
- Title: Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization
- Title(参考訳): 変換器ベースエンコーダデコーダモデルによる人間ライク要約の評価
- Authors: Sindhu Nair, Y. S. Rao, Radha Shankarmani,
- Abstract要約: この研究は、トランスフォーマーベースのBARTモデルを利用して人間のような要約を行う。
エンコーダ・デコーダモデルの訓練および微調整において,多種多様なサンプル記事を用いて検証を行った。
微調整モデルの性能をベースライン事前訓練モデルと比較する。
BBC Newsの記事に載った実証的な結果は、人間によって書かれた金の標準要約の方が17%も現実的に一貫性があることを示している。
- 参考スコア(独自算出の注目度): 0.05852077003870416
- License:
- Abstract: In recent times, extracting valuable information from large text is making significant progress. Especially in the current era of social media, people expect quick bites of information. Automatic text summarization seeks to tackle this by slimming large texts down into more manageable summaries. This important research area can aid in decision-making by digging out salient content from large text. With the progress in deep learning models, significant work in language models has emerged. The encoder-decoder framework in deep learning has become the central approach for automatic text summarization. This work leverages transformer-based BART model for human-like summarization which is an open-ended problem with many challenges. On training and fine-tuning the encoder-decoder model, it is tested with diverse sample articles and the quality of summaries of diverse samples is assessed based on human evaluation parameters. Further, the finetuned model performance is compared with the baseline pretrained model based on evaluation metrics like ROUGE score and BERTScore. Additionally, domain adaptation of the model is required for improved performance of abstractive summarization of dialogues between interlocutors. On investigating, the above popular evaluation metrics are found to be insensitive to factual errors. Further investigation of the summaries generated by finetuned model is done using the contemporary evaluation metrics of factual consistency like WeCheck and SummaC. Empirical results on BBC News articles highlight that the gold standard summaries written by humans are more factually consistent by 17% than the abstractive summaries generated by finetuned model.
- Abstract(参考訳): 近年では、大きなテキストから貴重な情報を抽出することが大きな進歩を遂げている。
特に現代のソーシャルメディアでは、人々は情報を素早く噛むことを期待している。
自動テキスト要約は、大きなテキストをもっと管理可能な要約にスリム化することで、この問題に対処しようとしている。
この重要な研究領域は、大きなテキストから有能なコンテンツを掘り出すことで意思決定に役立つ。
ディープラーニングモデルの進歩に伴い、言語モデルにおける重要な研究が生まれている。
ディープラーニングにおけるエンコーダ・デコーダフレームワークは,自動テキスト要約における中心的なアプローチとなっている。
この研究は、トランスフォーマーをベースとしたBARTモデルを、多くの課題を抱えたオープンエンド問題である人間のような要約に活用する。
エンコーダ・デコーダモデルの訓練および微調整において,多種多様なサンプルを用いて実験を行い,人的評価パラメータに基づいて多種多様なサンプルの要約の質を評価する。
さらに,ROUGEスコアやBERTScoreなどの評価指標に基づくベースライン事前学習モデルと比較した。
さらに,対話の抽象的要約性能を向上させるためには,モデルのドメイン適応が必要である。
調査の結果, 上記の評価指標は事実的誤りに敏感であることが判明した。
WeCheck や SummaC のような事実整合性の現代的評価指標を用いて、微調整モデルにより生成された要約のさらなる調査を行う。
BBC Newsの記事に載った実証的な結果は、人間によって書かれた金の標準要約は、微調整されたモデルによって生成された抽象的な要約よりも17%、現実的に一貫性があることを示している。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Leveraging Pretrained Models for Automatic Summarization of
Doctor-Patient Conversations [9.184616102949228]
BARTを微調整することで,限られたトレーニングデータを用いて,流動的で適切な要約を生成することができることを示す。
慎重に選択された微調整データセットを用いて、この手法はより長い会話を扱うのに効果的であることが示されている。
論文 参考訳(メタデータ) (2021-09-24T20:18:59Z) - Transformer Models for Text Coherence Assessment [14.132559978971377]
コヒーレンス(coherence)は、テキストの品質の重要な側面であり、その可読性を保証するために不可欠である。
これまでの研究は、エンティティベースの手法、構文パターン、談話関係、最近ではテキストコヒーレンスアセスメントのための従来のディープラーニングアーキテクチャを活用してきた。
バニラ変換器,階層変換器,マルチタスク学習モデル,ファクトベース入力表現モデルという4つの異なるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-05T22:27:17Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - On Faithfulness and Factuality in Abstractive Summarization [17.261247316769484]
我々は抽象文書要約のためのニューラルテキスト生成モデルの制約を解析した。
これらのモデルは、入力文書に反するコンテンツを幻覚させる傾向にあることがわかった。
テキスト・エンタテインメントの指標は,標準指標よりも忠実度と相関性が高いことを示す。
論文 参考訳(メタデータ) (2020-05-02T00:09:16Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。