論文の概要: Reference and Document Aware Semantic Evaluation Methods for Korean
Language Summarization
- arxiv url: http://arxiv.org/abs/2005.03510v2
- Date: Mon, 2 Nov 2020 02:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 10:06:35.794510
- Title: Reference and Document Aware Semantic Evaluation Methods for Korean
Language Summarization
- Title(参考訳): 韓国語要約のための参照・文書認識意味評価手法
- Authors: Dongyub Lee, Myeongcheol Shin, Taesun Whang, Seungwoo Cho, Byeongil
Ko, Daniel Lee, Eunggyun Kim, Jaechoon Jo
- Abstract要約: 本稿では,参照要約と原文書の意味を反映した評価指標を提案する。
次に,人間の判断とメトリクスの相関性を改善する手法を提案する。
- 参考スコア(独自算出の注目度): 6.826626737986031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text summarization refers to the process that generates a shorter form of
text from the source document preserving salient information. Many existing
works for text summarization are generally evaluated by using recall-oriented
understudy for gisting evaluation (ROUGE) scores. However, as ROUGE scores are
computed based on n-gram overlap, they do not reflect semantic meaning
correspondences between generated and reference summaries. Because Korean is an
agglutinative language that combines various morphemes into a word that express
several meanings, ROUGE is not suitable for Korean summarization. In this
paper, we propose evaluation metrics that reflect semantic meanings of a
reference summary and the original document, Reference and Document Aware
Semantic Score (RDASS). We then propose a method for improving the correlation
of the metrics with human judgment. Evaluation results show that the
correlation with human judgment is significantly higher for our evaluation
metrics than for ROUGE scores.
- Abstract(参考訳): テキスト要約(英: text summarization)とは、ソース文書からより短い形式のテキストを生成するプロセスである。
テキスト要約のための多くの既存の研究は、一般に、試行評価(ROUGE)スコアのためのリコール指向のアンダースタディを用いて評価される。
しかし、ROUGEスコアはn-gramオーバーラップに基づいて計算されるため、生成された要約と参照要約のセマンティックな対応を反映しない。
韓国語は、様々な形態素を複数の意味を表す単語に結合する凝集言語であるため、ROUGEは韓国語要約には適さない。
本稿では,参照要約の意味を反映した評価指標と,RDASS(Reference and Document Aware Semantic Score)の原文書を提案する。
次に,人間の判断とメトリクスの相関性を改善する手法を提案する。
評価結果から,評価指標ではROUGEスコアよりも人的判断との相関が有意に高いことがわかった。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Spurious Correlations in Reference-Free Evaluation of Text Generation [35.80256755393739]
本研究では,要約とダイアログ生成の基準フリー評価指標が,単語重複,パープレキシティ,長さなどの指標と急激な相関に依拠していることを示す。
評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを実証する。
論文 参考訳(メタデータ) (2022-04-21T05:32:38Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。