論文の概要: Wisdom of collaborators: a peer-review approach to performance appraisal
- arxiv url: http://arxiv.org/abs/1912.12861v1
- Date: Mon, 30 Dec 2019 09:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 07:03:59.580083
- Title: Wisdom of collaborators: a peer-review approach to performance appraisal
- Title(参考訳): 共同研究者の知恵--パフォーマンス評価に対するピアリビューアプローチ
- Authors: Sofia Dokuka, Ivan Zaikin, Kate Furman, Maksim Tsvetovat and Alex
Furman
- Abstract要約: 本稿では,個々人の評価と,定量化不可能な個々人の影響を評価する新しい指標であるPier Rank Score(PRS)を提案する。
PRSは、従業員のペアワイズ比較に基づいている。
シミュレーションでアルゴリズムの堅牢性を示し、1000人以上の従業員を対象に遺伝子検査会社として実証的に検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Individual performance and reputation within a company are major factors that
influence wage distribution, promotion and firing. Due to the complexity and
collaborative nature of contemporary business processes, the evaluation of
individual impact in the majority of organizations is an ambiguous and
non-trivial task. Existing performance appraisal approaches are often affected
by individuals biased judgements, and organizations are dissatisfied with the
results of evaluations. We assert that employees can provide accurate
measurement of their peer performance in a complex collaborative environment.
We propose a novel metric, the Peer Rank Score (PRS), that evaluates individual
reputations and the non-quantifiable individual impact. PRS is based on
pairwise comparisons of employees. We show high robustness of the algorithm on
simulations and empirically validate it for a genetic testing company on more
than one thousand employees using peer reviews over the course of three years.
- Abstract(参考訳): 企業内の個人のパフォーマンスと評価は、賃金の分配、昇進、解雇に影響を与える主要な要因である。
現代のビジネスプロセスの複雑さとコラボレーティブな性質のため、組織の大部分における個々の影響の評価は曖昧で非自明な作業である。
既存のパフォーマンス評価アプローチは、個人が偏った判断によってしばしば影響を受けるが、組織は評価結果に不満を持っている。
従業員は複雑な協調環境において、ピアパフォーマンスを正確に測定できると断言する。
本研究では,個人の評価と定量化不可能な個人的影響を評価する新しい指標であるピアランクスコア(prs)を提案する。
PRSは従業員のペア比較に基づいている。
シミュレーションにおけるアルゴリズムの堅牢性を示し、3年間で1000人以上の従業員を対象に、遺伝子検査会社として実証的な検証を行った。
関連論文リスト
- SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse [9.542503507653494]
CoT(Chain-of-Thought)は、大規模言語やマルチモーダルモデルを扱う上で広く使われている戦略である。
認知心理学からインスピレーションを得て,CoTが性能を低下させるタスクの特徴を同定する。
予測時間推論を用いた場合,多種多様な最先端モデル群が性能低下を示すことが判明した。
論文 参考訳(メタデータ) (2024-10-27T18:30:41Z) - (De)Noise: Moderating the Inconsistency Between Human Decision-Makers [15.291993233528526]
本研究では, アルゴリズムによる意思決定支援が, 不動産評価の文脈における人間の意思決定の不整合度を緩和するのに有効かどうかを検討する。
i) アルゴリズムによって選択されたペアワイド比較において, 回答者に見積をレビューするよう求めることと, (ii) 従来の機械的アドバイスを回答者に提供することは, 人間の反応に影響を与える効果的な方法であることがわかった。
論文 参考訳(メタデータ) (2024-07-15T20:24:36Z) - Mitigating Cognitive Biases in Multi-Criteria Crowd Assessment [22.540544209683592]
クラウドソーシングにおけるマルチ基準アセスメントに関連する認知バイアスに着目した。
複数の異なる基準で目標を同時に評価するクラウドワーカーは、いくつかの基準の優位性や評価対象の世界的な印象による偏りのある応答を提供することができる。
評価基準間の関係を考慮に入れたベイズ意見集約モデルのための2つの具体的なモデル構造を提案する。
論文 参考訳(メタデータ) (2024-07-10T16:00:23Z) - 360$^\circ$REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System [71.96888731208838]
評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。
企業組織の実践にインスパイアされた階層的なマルチエージェントフレームワークである360$circ$REA(360$circ$REA)による再利用可能なエクスペリエンス蓄積を提案する。
論文 参考訳(メタデータ) (2024-04-08T14:43:13Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - Improving Peer Assessment with Graph Convolutional Networks [2.105564340986074]
ピアアセスメントは専門家による評価ほど正確ではないかもしれない。
まず,様々なピアアセスメント設定を表現可能なマルチリレーショナル重み付きネットワークとして,ピアアセスメントをモデル化する。
本稿では,評価パターンとユーザ動作を学習し,専門家の評価をより正確に予測するグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-04T03:43:09Z) - Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment [61.24399136715106]
我々は、試験やホームワークの査定や採用・昇進の査定など、様々な査定課題における戦略的行動の課題について考察する。
我々はこのような操作を検出する方法の設計に重点を置いている。
具体的には、エージェントがピアのサブセットを評価し、後に集約されたランキングを最終的な順序付けとして出力する設定について検討する。
論文 参考訳(メタデータ) (2020-10-08T15:08:40Z) - The cost of coordination can exceed the benefit of collaboration in
performing complex tasks [0.0]
ダイアドは徐々にパフォーマンスが向上するが、ほとんどの状況では個人に比べて集団的な利益を経験しない。
適切な訓練を受けたダイアドに新たな専門家を持つことで、精度が向上する。
個人が受けるトレーニングの程度、目の前のタスクの複雑さ、望ましいパフォーマンス指標がすべて、集団的な意思決定のメリットを測る上で考慮すべき重要な要素である、ということが分かる。
論文 参考訳(メタデータ) (2020-09-23T10:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。