Fugu-MT 論文翻訳(概要): Does Summary Evaluation Survive Translation to Other Languages?

論文の概要: Does Summary Evaluation Survive Translation to Other Languages?

arxiv url: http://arxiv.org/abs/2109.08129v1
Date: Thu, 16 Sep 2021 17:35:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-17 14:01:14.600335
Title: Does Summary Evaluation Survive Translation to Other Languages?
Title（参考訳）: 要約評価は他言語への翻訳に耐えられるか?
Authors: Neslihan Iskender, Oleg Vasilyev, Tim Polzehl, John Bohannon, Sebastian M\"oller
Abstract要約: 既存の英語要約データセット SummEval を4言語に翻訳する。本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The creation of a large summarization quality dataset is a considerable, expensive, time-consuming effort, requiring careful planning and setup. It includes producing human-written and machine-generated summaries and evaluation of the summaries by humans, preferably by linguistic experts, and by automatic evaluation tools. If such effort is made in one language, it would be beneficial to be able to use it in other languages. To investigate how much we can trust the translation of such dataset without repeating human annotations in another language, we translated an existing English summarization dataset, SummEval dataset, to four different languages and analyzed the scores from the automatic evaluation metrics in translated languages, as well as their correlation with human annotations in the source language. Our results reveal that although translation changes the absolute value of automatic scores, the scores keep the same rank order and approximately the same correlations with human annotations.
Abstract（参考訳）: 大規模な要約品質データセットの作成は、慎重な計画とセットアップを必要とする、かなりのコストと時間を要する作業である。人文および機械による要約の作成と、人間による要約の評価、好ましくは言語の専門家による評価、自動評価ツールによる評価を含む。もしそのような努力が1つの言語でなされたら、他の言語でそれを使うことが有益でしょう。他の言語での人間のアノテーションを繰り返すことなく、そのようなデータセットの翻訳をどれだけ信頼できるかを調べるため、既存の英語要約データセット SummEval を4つの言語に翻訳し、翻訳言語における自動評価指標からスコアを分析し、ソース言語における人間のアノテーションとの相関を調べた。結果から,翻訳は自動スコアの絶対値を変化させるが,スコアは同じランクの順で,人間のアノテーションとほぼ同じ相関を保っていることがわかった。

関連論文リスト

Beyond N-Grams: Rethinking Evaluation Metrics and Strategies for Multilingual Abstractive Summarization [13.458891794688551]
我々は,n-gramベースとニューラルベースの両方を生成するための評価指標を評価し,言語やタスク間での有効性を評価する。本研究は,評価指標の言語タイプに対する感受性を明らかにするものである。
論文参考訳（メタデータ） (2025-07-11T06:44:52Z)
Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文参考訳（メタデータ） (2024-06-14T14:47:19Z)
Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文参考訳（メタデータ） (2024-06-06T09:18:42Z)
Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文参考訳（メタデータ） (2023-06-06T16:51:03Z)
SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。 SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文参考訳（メタデータ） (2023-05-22T16:25:07Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-28T14:02:16Z)
Backretrieval: An Image-Pivoted Evaluation Metric for Cross-Lingual Text Representations Without Parallel Corpora [19.02834713111249]
Backretrievalは、注釈付きデータセットの地上の真実メトリクスと相関している。本実験は,並列言語間データを用いないレシピデータセットのケーススタディで締めくくった。
論文参考訳（メタデータ） (2021-05-11T12:14:24Z)
Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。本稿では,ラベルのないデータを利用して性能を向上する。
論文参考訳（メタデータ） (2021-05-08T08:04:30Z)
Cross-lingual Approach to Abstractive Summarization [0.0]
言語間モデル転送は低リソース言語でうまく適用できる。深層ニューラルネットワークとシークエンス・トゥ・シークエンスアーキテクチャに基づく事前学習型英語要約モデルを用いた。対象言語データに異なる比率のモデルを開発し,微調整を行った。
論文参考訳（メタデータ） (2020-12-08T09:30:38Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)
WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文参考訳（メタデータ） (2020-10-07T00:28:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。