論文の概要: The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony
and Sarcasm Generation
- arxiv url: http://arxiv.org/abs/2311.05552v1
- Date: Thu, 9 Nov 2023 17:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:11:45.695512
- Title: The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony
and Sarcasm Generation
- Title(参考訳): 鉄(ic)溶融鍋 : ユーモア, 皮肉, 皮肉の発生過程における人間評価の再検討
- Authors: Tyler Loakman, Aaron Maladry, Chenghua Lin
- Abstract要約: より難解な言語の生成は、選択した評価器パネルの特性が最重要となるサブドメインを構成すると論じる。
本研究は,NLGにおける最近の研究を批判的に調査し,本サブドメインにおける評価方法の評価を行った。
評価対象の人口統計情報の公開報告の欠如や、採用のためのクラウドソーシングプラットフォームに大きく依存していることに留意する。
- 参考スコア(独自算出の注目度): 16.591822946975547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation is often considered to be the gold standard method of
evaluating a Natural Language Generation system. However, whilst its importance
is accepted by the community at large, the quality of its execution is often
brought into question. In this position paper, we argue that the generation of
more esoteric forms of language - humour, irony and sarcasm - constitutes a
subdomain where the characteristics of selected evaluator panels are of utmost
importance, and every effort should be made to report demographic
characteristics wherever possible, in the interest of transparency and
replicability. We support these claims with an overview of each language form
and an analysis of examples in terms of how their interpretation is affected by
different participant variables. We additionally perform a critical survey of
recent works in NLG to assess how well evaluation procedures are reported in
this subdomain, and note a severe lack of open reporting of evaluator
demographic information, and a significant reliance on crowdsourcing platforms
for recruitment.
- Abstract(参考訳): 人間の評価はしばしば自然言語生成システムを評価するための金の標準であると考えられている。
しかし、その重要性はコミュニティによって広く受け入れられているが、その実行の質は問題視されることが多い。
本稿では, ユウ, 皮肉, 皮肉といった難解な言語の生成が, 選択した評価器パネルの特性が最重要となるサブドメインを構成し, 透明性と複製性に関心を持って, 可能な限り, 人口統計学的特徴を報告すべきである,と論じる。
我々はこれらの主張を,各言語形式の概要と,それらの解釈が異なる変数にどのように影響されるかという観点からの事例分析で支援する。
さらに,本サブドメインにおける評価手順の充実度を評価するため,NLGにおける最近の研究の批判的調査を行い,評価対象人口統計情報の公開報告の欠如や,採用のためのクラウドソーシングプラットフォームへの大きな依存点に留意する。
関連論文リスト
- The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。
例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。
自動評価と人的評価を改善するためのステップを推奨する。
論文 参考訳(メタデータ) (2024-05-07T16:23:06Z) - Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Evaluation of Summarization Systems across Gender, Age, and Race [0.0]
要約評価は保護属性に敏感であることを示す。
これはシステム開発と評価に大きく偏りを生じさせ、他のグループではなく、一部のグループを対象とするモデルを構築します。
論文 参考訳(メタデータ) (2021-10-08T21:30:20Z) - Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on
Recent Papers [0.685316573653194]
創造的な自然言語生成に関する論文の中で,人間の評価について調査する。
最も典型的な人間の評価法は、通常5点の尺度で、スケールされたサーベイである。
最もよく評価されるパラメータは、意味、統語的正しさ、新規性、関連性、感情的価値である。
論文 参考訳(メタデータ) (2021-07-31T18:54:30Z) - On the Use of Linguistic Features for the Evaluation of Generative
Dialogue Systems [17.749995931459136]
言語的特徴に基づく指標は,人間の判断と良好な相関を維持し,解釈可能であることを示唆する。
この提案を支持するために,複数の対話モデルによって生成された対話のさまざまな言語的特徴を計測し,分析する。
特徴の振る舞いはテストされたモデルの既知の特性と一致し、ドメイン間で類似していることが分かりました。
論文 参考訳(メタデータ) (2021-04-13T16:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。