Fugu-MT 論文翻訳(概要): Evaluation of Summarization Systems across Gender, Age, and Race

論文の概要: Evaluation of Summarization Systems across Gender, Age, and Race

arxiv url: http://arxiv.org/abs/2110.04384v1
Date: Fri, 8 Oct 2021 21:30:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-12 17:12:50.048385
Title: Evaluation of Summarization Systems across Gender, Age, and Race
Title（参考訳）: 性別・年齢・人種における要約システムの評価
Authors: Anna J{\o}rgensen and Anders S{\o}gaard
Abstract要約: 要約評価は保護属性に敏感であることを示す。これはシステム開発と評価に大きく偏りを生じさせ、他のグループではなく、一部のグループを対象とするモデルを構築します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Summarization systems are ultimately evaluated by human annotators and raters. Usually, annotators and raters do not reflect the demographics of end users, but are recruited through student populations or crowdsourcing platforms with skewed demographics. For two different evaluation scenarios -- evaluation against gold summaries and system output ratings -- we show that summary evaluation is sensitive to protected attributes. This can severely bias system development and evaluation, leading us to build models that cater for some groups rather than others.
Abstract（参考訳）: 要約システムは最終的に、人間の注釈と格付けによって評価される。通常、アノテーターやラッカーはエンドユーザの人口統計を反映しないが、学生やクラウドソーシングプラットフォームを通じて採用される。ゴールドサマリーに対する評価とシステムアウトプットレーティングの2つの異なる評価シナリオについて,サマリー評価が保護属性に敏感であることを示す。これはシステム開発と評価を厳しくバイアスし、他のグループよりも一部のグループに対応するモデルを構築することにつながります。

関連論文リスト

Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文参考訳（メタデータ） (2025-02-27T15:07:47Z)
Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文参考訳（メタデータ） (2024-04-19T16:45:50Z)
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文参考訳（メタデータ） (2024-03-13T07:31:20Z)
Evaluating Agents using Social Choice Theory [21.26784305333596]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文参考訳（メタデータ） (2023-12-05T20:40:37Z)
The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony and Sarcasm Generation [16.591822946975547]
より難解な言語の生成は、選択した評価器パネルの特性が最重要となるサブドメインを構成すると論じる。本研究は,NLGにおける最近の研究を批判的に調査し,本サブドメインにおける評価方法の評価を行った。評価対象の人口統計情報の公開報告の欠如や、採用のためのクラウドソーシングプラットフォームに大きく依存していることに留意する。
論文参考訳（メタデータ） (2023-11-09T17:50:23Z)
OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文参考訳（メタデータ） (2023-10-27T13:09:54Z)
Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文参考訳（メタデータ） (2023-05-24T04:27:40Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文参考訳（メタデータ） (2022-10-17T08:55:26Z)
Predicting user demographics based on interest analysis [1.7403133838762448]
本稿では,システム内のユーザによって登録されたレーティングに基づいて,ユーザの人口動態を予測する枠組みを提案する。ユーザによって登録されたすべてのレーティングを使用することで、これまで検討されたモデルと比較して、予測精度が少なくとも16%向上する。
論文参考訳（メタデータ） (2021-08-02T16:25:09Z)
Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on Recent Papers [0.685316573653194]
創造的な自然言語生成に関する論文の中で,人間の評価について調査する。最も典型的な人間の評価法は、通常5点の尺度で、スケールされたサーベイである。最もよく評価されるパラメータは、意味、統語的正しさ、新規性、関連性、感情的価値である。
論文参考訳（メタデータ） (2021-07-31T18:54:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。