論文の概要: A Call for Standardization and Validation of Text Style Transfer
Evaluation
- arxiv url: http://arxiv.org/abs/2306.00539v1
- Date: Thu, 1 Jun 2023 10:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 16:51:34.440445
- Title: A Call for Standardization and Validation of Text Style Transfer
Evaluation
- Title(参考訳): テキストスタイル転送評価の標準化と検証
- Authors: Phil Ostheimer, Mayank Nagda, Marius Kloft, Sophie Fellenz
- Abstract要約: テキスト・スタイル・トランスファー(TST)評価のメタ分析を行う。
メタアナリシスは、人間と自動評価における相当な標準化のギャップを明らかにしている。
人間の実験で検証されている自動メトリクスはごくわずかです。
- 参考スコア(独自算出の注目度): 18.125215454082003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text Style Transfer (TST) evaluation is, in practice, inconsistent.
Therefore, we conduct a meta-analysis on human and automated TST evaluation and
experimentation that thoroughly examines existing literature in the field. The
meta-analysis reveals a substantial standardization gap in human and automated
evaluation. In addition, we also find a validation gap: only few automated
metrics have been validated using human experiments. To this end, we thoroughly
scrutinize both the standardization and validation gap and reveal the resulting
pitfalls. This work also paves the way to close the standardization and
validation gap in TST evaluation by calling out requirements to be met by
future research.
- Abstract(参考訳): テキストスタイル転送(TST)の評価は、実際には一貫性がない。
そこで本研究では,人体におけるメタ分析と自動TST評価と実験を行い,その分野における既存の文献を徹底的に検証する。
メタアナリシスは、人間と自動評価における実質的な標準化のギャップを明らかにする。
さらに、検証のギャップも見つかりました。人間の実験で検証されている自動メトリクスはごくわずかです。
この目的のために、標準化と検証のギャップを徹底的に検討し、結果として生じる落とし穴を明らかにする。
また,TST評価における標準化と検証のギャップを埋める方法として,今後の研究で満たすべき要件を提起する。
関連論文リスト
- Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Automating Behavioral Testing in Machine Translation [9.151054827967933]
本稿では,機械翻訳モデルの振る舞いをテストするために,大規模言語モデルを用いてソース文を生成することを提案する。
MTモデルが一致した候補集合を通して期待される振る舞いを示すかどうかを検証することができる。
本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。
論文 参考訳(メタデータ) (2023-09-05T19:40:45Z) - Text Style Transfer Evaluation Using Large Language Models [24.64611983641699]
大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
論文 参考訳(メタデータ) (2023-08-25T13:07:33Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - On the Effectiveness of Automated Metrics for Text Generation Systems [4.661309379738428]
本稿では,不完全な自動計測や不十分な大きさのテストセットなど,不確実性の原因を取り入れた理論を提案する。
この理論には、テキスト生成システムの一連の性能を確実に区別するために必要なサンプル数を決定するなど、実用的な応用がある。
論文 参考訳(メタデータ) (2022-10-24T08:15:28Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - Posthoc Verification and the Fallibility of the Ground Truth [10.427125361534966]
我々は,エンティティリンク(EL)タスクにおいて,系統的なポストホック検証実験を行う。
プレアノテーション評価と比較して,最先端ELモデルはポストホック評価法により極めて良好に動作した。
驚くべきことに、ELモデルからの予測は、基礎的な真実よりも類似または高い検証率を持っていた。
論文 参考訳(メタデータ) (2021-06-02T17:57:09Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。