論文の概要: Evaluating the Evaluation Metrics for Style Transfer: A Case Study in
Multilingual Formality Transfer
- arxiv url: http://arxiv.org/abs/2110.10668v1
- Date: Wed, 20 Oct 2021 17:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 16:23:28.249816
- Title: Evaluating the Evaluation Metrics for Style Transfer: A Case Study in
Multilingual Formality Transfer
- Title(参考訳): スタイルトランスファーの評価指標の評価--多言語形式トランスファーを事例として
- Authors: Eleftheria Briakou, Sweta Agrawal, Joel Tetreault and Marine Carpuat
- Abstract要約: この研究は、スタイル転送(ST)におけるメトリクスの多言語的評価としては初めてである。
フォーマルなスタイル転送のタスクにおいて, 先行ST自動測定値の評価を行った。
人間の判断とよく相関し、言語間で堅牢なモデルをいくつか特定する。
- 参考スコア(独自算出の注目度): 11.259786293913606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the field of style transfer (ST) has been growing rapidly, it has been
hampered by a lack of standardized practices for automatic evaluation. In this
paper, we evaluate leading ST automatic metrics on the oft-researched task of
formality style transfer. Unlike previous evaluations, which focus solely on
English, we expand our focus to Brazilian-Portuguese, French, and Italian,
making this work the first multilingual evaluation of metrics in ST. We outline
best practices for automatic evaluation in (formality) style transfer and
identify several models that correlate well with human judgments and are robust
across languages. We hope that this work will help accelerate development in
ST, where human evaluation is often challenging to collect.
- Abstract(参考訳): スタイル転送(ST)の分野は急速に成長しているが、自動評価のための標準化されたプラクティスの欠如によって妨げられている。
本稿では,定式化方式の伝達作業における先行ST自動測定値の評価を行う。
英語のみに焦点を当てた以前の評価とは違って、ブラジル-ポルトガル語、フランス語、イタリア語に焦点を絞って、この作業は、サンクトペテルブルクで最初の多言語間メトリクス評価を行い、(形式的)スタイル転送における自動評価のベストプラクティスを概説し、人間の判断とよく関連し、言語間で堅牢なモデルをいくつか識別する。
人間の評価を収集することがしばしば難しいSTの開発を加速する上で、この取り組みが役立つことを期待しています。
関連論文リスト
- Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。
本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。
分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文 参考訳(メタデータ) (2024-06-06T09:18:42Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Text Style Transfer Evaluation Using Large Language Models [24.64611983641699]
大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
論文 参考訳(メタデータ) (2023-08-25T13:07:33Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Human Judgement as a Compass to Navigate Automatic Metrics for Formality
Transfer [13.886432536330807]
形式性伝達の課題に焦点をあて、通常評価される3つの側面(スタイル強度、コンテンツ保存、流布)に焦点をあてる。
フォーマル性伝達におけるこれらの指標の使用について、関連するタスクに対する一般化可能性(あるいはそうでない)に注目して、いくつかの推奨事項を提示します。
論文 参考訳(メタデータ) (2022-04-15T17:15:52Z) - An Overview on Machine Translation Evaluation [6.85316573653194]
機械翻訳(MT)はAIと開発の重要なタスクの1つとなっている。
MTの評価課題は,機械翻訳の質を評価するだけでなく,機械翻訳研究者にタイムリーなフィードバックを与えることである。
本報告は,機械翻訳評価(MTE)の略歴,MTE研究手法の分類,最先端の進展について概説する。
論文 参考訳(メタデータ) (2022-02-22T16:58:28Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - On the interaction of automatic evaluation and task framing in headline
style transfer [6.27489964982972]
本稿では,スタイル転送などの微妙なテキストの差異を含むタスクの評価手法を提案する。
BLEUやROUGEのような従来のメトリクスよりも,システムの違いを反映した方がよいことを示す。
論文 参考訳(メタデータ) (2021-01-05T16:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。