論文の概要: Evaluation of Summarization Systems across Gender, Age, and Race
- arxiv url: http://arxiv.org/abs/2110.04384v1
- Date: Fri, 8 Oct 2021 21:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:12:50.048385
- Title: Evaluation of Summarization Systems across Gender, Age, and Race
- Title(参考訳): 性別・年齢・人種における要約システムの評価
- Authors: Anna J{\o}rgensen and Anders S{\o}gaard
- Abstract要約: 要約評価は保護属性に敏感であることを示す。
これはシステム開発と評価に大きく偏りを生じさせ、他のグループではなく、一部のグループを対象とするモデルを構築します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarization systems are ultimately evaluated by human annotators and
raters. Usually, annotators and raters do not reflect the demographics of end
users, but are recruited through student populations or crowdsourcing platforms
with skewed demographics. For two different evaluation scenarios -- evaluation
against gold summaries and system output ratings -- we show that summary
evaluation is sensitive to protected attributes. This can severely bias system
development and evaluation, leading us to build models that cater for some
groups rather than others.
- Abstract(参考訳): 要約システムは最終的に、人間の注釈と格付けによって評価される。
通常、アノテーターやラッカーはエンドユーザの人口統計を反映しないが、学生やクラウドソーシングプラットフォームを通じて採用される。
ゴールドサマリーに対する評価とシステムアウトプットレーティングの2つの異なる評価シナリオについて,サマリー評価が保護属性に敏感であることを示す。
これはシステム開発と評価を厳しくバイアスし、他のグループよりも一部のグループに対応するモデルを構築することにつながります。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - Evaluating Agents using Social Choice Theory [21.26784305333596]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。
各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。
これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文 参考訳(メタデータ) (2023-12-05T20:40:37Z) - The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony
and Sarcasm Generation [16.591822946975547]
より難解な言語の生成は、選択した評価器パネルの特性が最重要となるサブドメインを構成すると論じる。
本研究は,NLGにおける最近の研究を批判的に調査し,本サブドメインにおける評価方法の評価を行った。
評価対象の人口統計情報の公開報告の欠如や、採用のためのクラウドソーシングプラットフォームに大きく依存していることに留意する。
論文 参考訳(メタデータ) (2023-11-09T17:50:23Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Predicting user demographics based on interest analysis [1.7403133838762448]
本稿では,システム内のユーザによって登録されたレーティングに基づいて,ユーザの人口動態を予測する枠組みを提案する。
ユーザによって登録されたすべてのレーティングを使用することで、これまで検討されたモデルと比較して、予測精度が少なくとも16%向上する。
論文 参考訳(メタデータ) (2021-08-02T16:25:09Z) - Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on
Recent Papers [0.685316573653194]
創造的な自然言語生成に関する論文の中で,人間の評価について調査する。
最も典型的な人間の評価法は、通常5点の尺度で、スケールされたサーベイである。
最もよく評価されるパラメータは、意味、統語的正しさ、新規性、関連性、感情的価値である。
論文 参考訳(メタデータ) (2021-07-31T18:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。