論文の概要: Evaluating the Efficacy of Summarization Evaluation across Languages
- arxiv url: http://arxiv.org/abs/2106.01478v1
- Date: Wed, 2 Jun 2021 21:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 04:38:43.021622
- Title: Evaluating the Efficacy of Summarization Evaluation across Languages
- Title(参考訳): 言語間の要約評価の有効性の評価
- Authors: Fajri Koto and Jey Han Lau and Timothy Baldwin
- Abstract要約: 我々は8つの異なる言語に対する要約コーパスを取り、フォーカス(精度)とカバレッジ(リコール)のために手動で生成された要約を注釈付けする。
BERTScoreにおける多言語BERTの使用は、英語よりも高いレベルにおいて、すべての言語でうまく機能することがわかった。
- 参考スコア(独自算出の注目度): 33.46519116869276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While automatic summarization evaluation methods developed for English are
routinely applied to other languages, this is the first attempt to
systematically quantify their panlinguistic efficacy. We take a summarization
corpus for eight different languages, and manually annotate generated summaries
for focus (precision) and coverage (recall). Based on this, we evaluate 19
summarization evaluation metrics, and find that using multilingual BERT within
BERTScore performs well across all languages, at a level above that for
English.
- Abstract(参考訳): 英語向けに開発された自動要約評価法は、他の言語にも日常的に適用されるが、パン言語学的効果を体系的に定量化する最初の試みである。
我々は、8つの異なる言語に対する要約コーパスを取り、フォーカス(精度)とカバレッジ(リコール)のために手動で生成された要約を注釈付けする。
これに基づいて,19の要約評価指標を評価し,bertscoreにおける多言語bertの使用は,英語のそれよりも高いレベルにおいて,すべての言語で良好に機能することを示す。
関連論文リスト
- Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。
本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。
分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文 参考訳(メタデータ) (2024-06-06T09:18:42Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Monolingual and Cross-Lingual Acceptability Judgments with the Italian
CoLA corpus [2.418273287232718]
ItaCoLAコーパスは,受理性判定を伴う約1万文を含む。
また、多言語トランスフォーマーに基づくアプローチが、微調整中に2つの言語で文を使うことのメリットを評価できるかを評価することを目的とした、最初の言語間実験も提示する。
論文 参考訳(メタデータ) (2021-09-24T16:18:53Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z) - Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文 参考訳(メタデータ) (2020-02-10T21:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。