Fugu-MT 論文翻訳(概要): Wisdom of collaborators: a peer-review approach to performance appraisal

論文の概要: Wisdom of collaborators: a peer-review approach to performance appraisal

arxiv url: http://arxiv.org/abs/1912.12861v1
Date: Mon, 30 Dec 2019 09:23:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 07:03:59.580083
Title: Wisdom of collaborators: a peer-review approach to performance appraisal
Title（参考訳）: 共同研究者の知恵--パフォーマンス評価に対するピアリビューアプローチ
Authors: Sofia Dokuka, Ivan Zaikin, Kate Furman, Maksim Tsvetovat and Alex Furman
Abstract要約: 本稿では,個々人の評価と,定量化不可能な個々人の影響を評価する新しい指標であるPier Rank Score(PRS)を提案する。 PRSは、従業員のペアワイズ比較に基づいている。シミュレーションでアルゴリズムの堅牢性を示し、1000人以上の従業員を対象に遺伝子検査会社として実証的に検証した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Individual performance and reputation within a company are major factors that influence wage distribution, promotion and firing. Due to the complexity and collaborative nature of contemporary business processes, the evaluation of individual impact in the majority of organizations is an ambiguous and non-trivial task. Existing performance appraisal approaches are often affected by individuals biased judgements, and organizations are dissatisfied with the results of evaluations. We assert that employees can provide accurate measurement of their peer performance in a complex collaborative environment. We propose a novel metric, the Peer Rank Score (PRS), that evaluates individual reputations and the non-quantifiable individual impact. PRS is based on pairwise comparisons of employees. We show high robustness of the algorithm on simulations and empirically validate it for a genetic testing company on more than one thousand employees using peer reviews over the course of three years.
Abstract（参考訳）: 企業内の個人のパフォーマンスと評価は、賃金の分配、昇進、解雇に影響を与える主要な要因である。現代のビジネスプロセスの複雑さとコラボレーティブな性質のため、組織の大部分における個々の影響の評価は曖昧で非自明な作業である。既存のパフォーマンス評価アプローチは、個人が偏った判断によってしばしば影響を受けるが、組織は評価結果に不満を持っている。従業員は複雑な協調環境において、ピアパフォーマンスを正確に測定できると断言する。本研究では,個人の評価と定量化不可能な個人的影響を評価する新しい指標であるピアランクスコア(prs)を提案する。 PRSは従業員のペア比較に基づいている。シミュレーションにおけるアルゴリズムの堅牢性を示し、3年間で1000人以上の従業員を対象に、遺伝子検査会社として実証的な検証を行った。

関連論文リスト

Beyond performance-wise Contribution Evaluation in Federated Learning [0.0]
フェデレーション学習は、プライバシフレンドリーな協調学習フレームワークを提供する。その成功は参加者の貢献に依存している。この研究は、モデルの信頼性に対するクライアントのコントリビューションの問題を調査します。
論文参考訳（メタデータ） (2026-02-25T23:10:13Z)
LLMs Judge Themselves: A Game-Theoretic Framework for Human-Aligned Evaluation [41.42324204820521]
本研究は,ゲーム理論の原理が大規模言語モデル(LLM)の評価に効果的に適用できるかどうかを考察する。そこで我々は,LLMが自己再生とピアレビューを通じて相互の出力を評価できる新しい代替案を提案する。本フレームワークでは,ゲーム理論の投票アルゴリズムを組み込んでピアレビューを集約し,モデル生成ランキングが人間の嗜好を反映するかどうかを原則的に調査する。
論文参考訳（メタデータ） (2025-10-17T15:34:25Z)
CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization [53.79487826635141]
RLFT(Reinforcement Learning Fine-Tuning)は、客観的に検証された回答を持つタスクにおいて顕著な成功を収めた。しかし、ロールプレイング・ダイアログのようなオープンな主観的なタスクに苦しむ。独立したサンプル単位のスコアリングに依存する従来の報酬モデリングアプローチでは、主観的評価基準と不安定な報酬信号という2つの課題に直面している。人間の評価は、明示的な基準と暗黙的な比較判断を本質的に組み合わせているという知見に触発され、比較政策最適化を提案する。
論文参考訳（メタデータ） (2025-08-12T16:49:18Z)
Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文参考訳（メタデータ） (2025-07-03T17:35:31Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Who is Helping Whom? Analyzing Inter-dependencies to Evaluate Cooperation in Human-AI Teaming [13.263258837438045]
本研究では,人間とエージェントの協力関係を評価するための重要な指標として,建設的相互依存の概念を提案する。その結果,訓練されたエージェントは高いタスク報酬を得られるが,協調行動の誘発には失敗していることがわかった。分析の結果,チームリングのパフォーマンスは必ずしもタスク報酬と相関していないことが明らかとなり,タスク報酬だけでは協調を確実に測定できないことがわかった。
論文参考訳（メタデータ） (2025-02-10T19:16:20Z)
Employee Turnover Prediction: A Cross-component Attention Transformer with Consideration of Competitor Influence and Contagious Effect [12.879229546467117]
本研究では,企業間における個人従業員の転職を予測するために,ジョブの組込み性理論に基づく新たな深層学習手法を提案する。提案手法は,最先端のベンチマーク手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2025-01-31T22:25:39Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文参考訳（メタデータ） (2024-11-14T17:53:35Z)
Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse [9.542503507653494]
CoT(Chain-of-Thought)は、大規模言語やマルチモーダルモデルを扱う上で広く使われている戦略である。認知心理学からインスピレーションを得て,CoTが性能を低下させるタスクの特徴を同定する。予測時間推論を用いた場合,多種多様な最先端モデル群が性能低下を示すことが判明した。
論文参考訳（メタデータ） (2024-10-27T18:30:41Z)
(De)Noise: Moderating the Inconsistency Between Human Decision-Makers [15.291993233528526]
本研究では, アルゴリズムによる意思決定支援が, 不動産評価の文脈における人間の意思決定の不整合度を緩和するのに有効かどうかを検討する。 i) アルゴリズムによって選択されたペアワイド比較において, 回答者に見積をレビューするよう求めることと, (ii) 従来の機械的アドバイスを回答者に提供することは, 人間の反応に影響を与える効果的な方法であることがわかった。
論文参考訳（メタデータ） (2024-07-15T20:24:36Z)
Mitigating Cognitive Biases in Multi-Criteria Crowd Assessment [22.540544209683592]
クラウドソーシングにおけるマルチ基準アセスメントに関連する認知バイアスに着目した。複数の異なる基準で目標を同時に評価するクラウドワーカーは、いくつかの基準の優位性や評価対象の世界的な印象による偏りのある応答を提供することができる。評価基準間の関係を考慮に入れたベイズ意見集約モデルのための2つの具体的なモデル構造を提案する。
論文参考訳（メタデータ） (2024-07-10T16:00:23Z)
360$^\circ$REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System [71.96888731208838]
評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。企業組織の実践にインスパイアされた階層的なマルチエージェントフレームワークである360$circ$REA(360$circ$REA)による再利用可能なエクスペリエンス蓄積を提案する。
論文参考訳（メタデータ） (2024-04-08T14:43:13Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Individualized Policy Evaluation and Learning under Clustered Network Interference [3.8601741392210434]
本稿では,クラスタ化されたネットワーク干渉下での最適個別処理規則(ITR)の評価と学習の問題点について考察する。 ITRの実証性能を評価するための推定器を提案する。学習ITRに対する有限サンプル残差を導出し、効率的な評価推定器の使用により学習ポリシーの性能が向上することを示す。
論文参考訳（メタデータ） (2023-11-04T17:58:24Z)
Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文参考訳（メタデータ） (2023-05-25T21:01:00Z)
Improving Peer Assessment with Graph Convolutional Networks [2.105564340986074]
ピアアセスメントは専門家による評価ほど正確ではないかもしれない。まず,様々なピアアセスメント設定を表現可能なマルチリレーショナル重み付きネットワークとして,ピアアセスメントをモデル化する。本稿では,評価パターンとユーザ動作を学習し,専門家の評価をより正確に予測するグラフ畳み込みネットワークを提案する。
論文参考訳（メタデータ） (2021-11-04T03:43:09Z)
Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment [61.24399136715106]
我々は、試験やホームワークの査定や採用・昇進の査定など、様々な査定課題における戦略的行動の課題について考察する。我々はこのような操作を検出する方法の設計に重点を置いている。具体的には、エージェントがピアのサブセットを評価し、後に集約されたランキングを最終的な順序付けとして出力する設定について検討する。
論文参考訳（メタデータ） (2020-10-08T15:08:40Z)
The cost of coordination can exceed the benefit of collaboration in performing complex tasks [0.0]
ダイアドは徐々にパフォーマンスが向上するが、ほとんどの状況では個人に比べて集団的な利益を経験しない。適切な訓練を受けたダイアドに新たな専門家を持つことで、精度が向上する。個人が受けるトレーニングの程度、目の前のタスクの複雑さ、望ましいパフォーマンス指標がすべて、集団的な意思決定のメリットを測る上で考慮すべき重要な要素である、ということが分かる。
論文参考訳（メタデータ） (2020-09-23T10:18:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。