論文の概要: UMSE: Unified Multi-scenario Summarization Evaluation
- arxiv url: http://arxiv.org/abs/2305.16895v1
- Date: Fri, 26 May 2023 12:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:53:33.081361
- Title: UMSE: Unified Multi-scenario Summarization Evaluation
- Title(参考訳): UMSE:統一マルチシナリオ要約評価
- Authors: Shen Gao, Zhitao Yao, Chongyang Tao, Xiuying Chen, Pengjie Ren,
Zhaochun Ren and Zhumin Chen
- Abstract要約: 要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
- 参考スコア(独自算出の注目度): 52.60867881867428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Summarization quality evaluation is a non-trivial task in text summarization.
Contemporary methods can be mainly categorized into two scenarios: (1)
reference-based: evaluating with human-labeled reference summary; (2)
reference-free: evaluating the summary consistency of the document. Recent
studies mainly focus on one of these scenarios and explore training neural
models built on PLMs to align with human criteria. However, the models from
different scenarios are optimized individually, which may result in sub-optimal
performance since they neglect the shared knowledge across different scenarios.
Besides, designing individual models for each scenario caused inconvenience to
the user. Inspired by this, we propose Unified Multi-scenario Summarization
Evaluation Model (UMSE). More specifically, we propose a perturbed prefix
tuning method to share cross-scenario knowledge between scenarios and use a
self-supervised training paradigm to optimize the model without extra human
labeling. Our UMSE is the first unified summarization evaluation framework
engaged with the ability to be used in three evaluation scenarios. Experimental
results across three typical scenarios on the benchmark dataset SummEval
indicate that our UMSE can achieve comparable performance with several existing
strong methods which are specifically designed for each scenario.
- Abstract(参考訳): 要約品質評価は、テキスト要約における非自明なタスクである。
現代の手法は主に,(1)参照ベース:人間ラベル付き参照要約による評価,(2)参照フリー:文書の要約一貫性の評価の2つのシナリオに分類される。
最近の研究は、主にこれらのシナリオの1つに焦点を当て、人間の基準に合わせるためにPLM上に構築されたニューラルネットワークモデルを訓練する。
しかし、異なるシナリオからのモデルは個別に最適化されており、異なるシナリオ間で共有される知識を無視しているため、最適以下のパフォーマンスをもたらす可能性がある。
さらに、シナリオ毎に個別のモデルを設計することは、ユーザに不便をもたらします。
そこで我々は,UMSE(Unified Multi-scenario Summarization Evaluation Model)を提案する。
より具体的には,シナリオ間のクロスセナリオ知識を共有できる摂動プレフィックスチューニング手法を提案し,人間のラベル付けを必要とせず,自己教師付きトレーニングパラダイムを用いてモデルを最適化する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
ベンチマークデータセット SummEval における3つの典型的なシナリオに対する実験結果から、UMSE は、各シナリオ用に特別に設計されたいくつかの既存の強力なメソッドで同等のパフォーマンスを達成できることを示している。
関連論文リスト
- FEET: A Framework for Evaluating Embedding Techniques [0.5837446811360741]
FEETは、基礎モデルの開発とベンチマークのガイドとして設計された標準化されたプロトコルである。
フリーズ埋め込み、数発の埋め込み、完全に微調整された埋め込みの3つのユースケースを定義します。
論文 参考訳(メタデータ) (2024-11-02T18:03:49Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Semi-Supervised Dialogue Abstractive Summarization via High-Quality
Pseudolabel Selection [27.531083525683243]
半教師あり対話要約(SSDS)は、人ラベルデータへの依存を減らすためにモデル生成要約を利用する。
要約モデルの品質の3つの主次元をカプセル化した新しいスコアリング手法SiCFを提案する。
論文 参考訳(メタデータ) (2024-03-06T22:06:23Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - An Information-Theoretic Approach for Estimating Scenario Generalization
in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。
インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。
提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文 参考訳(メタデータ) (2022-11-02T01:39:30Z) - Scenario-Adaptive and Self-Supervised Model for Multi-Scenario
Personalized Recommendation [35.4495536683099]
シナリオ適応型自己監督型(SASS)モデルを提案し,上記の3つの課題を解決する。
このモデルは、ユーザ側とアイテム側の両方で対称に生成され、異なるシナリオにおけるアイテムの表現を区別することができる。
このモデルは、オンラインA/Bテストにおける平均視聴時間に対して8.0%以上の改善も達成している。
論文 参考訳(メタデータ) (2022-08-24T11:44:00Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。