論文の概要: Abnormal-aware Multi-person Evaluation System with Improved Fuzzy
Weighting
- arxiv url: http://arxiv.org/abs/2205.00388v1
- Date: Sun, 1 May 2022 03:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 16:31:22.591501
- Title: Abnormal-aware Multi-person Evaluation System with Improved Fuzzy
Weighting
- Title(参考訳): ファジィ重み改善による異常認識多人数評価システム
- Authors: Shutong Ni
- Abstract要約: 粗スクリーニングとスコア重み付きKendall-$tau$ Distanceからなる2段階スクリーニング法を選択する。
ファジィ・シンセティック・アセスメント・メソッド(FSE)を用いて、レビュアーによるスコアの重要度と信頼性を判定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There exists a phenomenon that subjectivity highly lies in the daily
evaluation process. Our research primarily concentrates on a multi-person
evaluation system with anomaly detection to minimize the possible inaccuracy
that subjective assessment brings. We choose the two-stage screening method,
which consists of rough screening and score-weighted Kendall-$\tau$ Distance to
winnow out abnormal data, coupled with hypothesis testing to narrow global
discrepancy. Then we use Fuzzy Synthetic Evaluation Method(FSE) to determine
the significance of scores given by reviewers as well as their reliability,
culminating in a more impartial weight for each reviewer in the final
conclusion. The results demonstrate a clear and comprehensive ranking instead
of unilateral scores, and we get to have an efficiency in filtering out
abnormal data as well as a reasonably objective weight determination mechanism.
We can sense that through our study, people will have a chance of modifying a
multi-person evaluation system to attain both equity and a relatively superior
competitive atmosphere.
- Abstract(参考訳): 主観性が日常的な評価過程に強く依存する現象が存在する。
本研究は,主観的評価が生み出す不正確性を最小限に抑えるために,異常検出を伴う多人数評価システムに焦点を当てている。
我々は,大まかなスクリーニングとスコア重み付けのKendall-$\tau$ Distanceからなる2段階スクリーニング法を選択し,仮説テストとグローバルな不一致を狭くする。
次に,Fazy Synthetic Evaluation Method (FSE) を用いてレビュアーのスコアの重要度と信頼性を判定し,最終結論において各レビュアーに対してより公平な重み付けを行う。
その結果、一方的なスコアではなく、明確で包括的なランキングが示され、異常データをフィルタリングする効率と、合理的に客観的な重み決定機構が得られた。
我々の研究によって、人々は、株式と比較的優れた競争環境の両方を達成するために、多人数評価システムを変更するチャンスがある。
関連論文リスト
- Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling [50.08315607506652]
信頼性の高い人的判断のための制約付きアクティブサンプリングフレームワーク(CASF)を提案する。
実験の結果、CASFは93.18%のシステム認識精度が得られた。
論文 参考訳(メタデータ) (2024-06-12T07:44:36Z) - On Pixel-level Performance Assessment in Anomaly Detection [87.7131059062292]
異常検出法は様々な応用において顕著な成功を収めている。
しかし、特にピクセルレベルでのパフォーマンスを評価することは複雑な課題である。
本稿では,視覚的エビデンスと統計的分析により,この課題の複雑さを解明する。
論文 参考訳(メタデータ) (2023-10-25T08:02:27Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - Score-balanced Loss for Multi-aspect Pronunciation Assessment [3.6825890616838066]
不均一なデータに起因する問題に対処するため,新たな損失関数であるスコアバランス損失を提案する。
再重み付け手法として、予測スコアがマイノリティクラスの場合、より高いコストを割り当てる。
本手法は,いくつかの面において不均衡なスコアを持つ音声強調762データセット上で評価する。
論文 参考訳(メタデータ) (2023-05-26T06:21:37Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。