論文の概要: Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment
- arxiv url: http://arxiv.org/abs/2010.04041v1
- Date: Thu, 8 Oct 2020 15:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 13:08:08.928403
- Title: Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment
- Title(参考訳): ピアアセスメントにおける戦略的行動の検出
- Authors: Ivan Stelmakh, Nihar B. Shah, Aarti Singh
- Abstract要約: 我々は、試験やホームワークの査定や採用・昇進の査定など、様々な査定課題における戦略的行動の課題について考察する。
我々はこのような操作を検出する方法の設計に重点を置いている。
具体的には、エージェントがピアのサブセットを評価し、後に集約されたランキングを最終的な順序付けとして出力する設定について検討する。
- 参考スコア(独自算出の注目度): 61.24399136715106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the issue of strategic behaviour in various peer-assessment
tasks, including peer grading of exams or homeworks and peer review in hiring
or promotions. When a peer-assessment task is competitive (e.g., when students
are graded on a curve), agents may be incentivized to misreport evaluations in
order to improve their own final standing. Our focus is on designing methods
for detection of such manipulations. Specifically, we consider a setting in
which agents evaluate a subset of their peers and output rankings that are
later aggregated to form a final ordering. In this paper, we investigate a
statistical framework for this problem and design a principled test for
detecting strategic behaviour. We prove that our test has strong false alarm
guarantees and evaluate its detection ability in practical settings. For this,
we design and execute an experiment that elicits strategic behaviour from
subjects and release a dataset of patterns of strategic behaviour that may be
of independent interest. We then use the collected data to conduct a series of
real and semi-synthetic evaluations that demonstrate a strong detection power
of our test.
- Abstract(参考訳): 我々は、試験やホームワークの査定や採用・昇進の査定など、さまざまな査定課題における戦略的行動の問題を検討する。
ピアアセスメントタスクが競争的である場合(例えば、学生が曲線で評価される場合)、エージェントは、自身の最終的な地位を改善するために、誤った評価を受けるインセンティブを与えることができる。
我々はこのような操作を検出する方法の設計に重点を置いている。
具体的には,エージェントがピアのサブセットを評価し,その後に集約して最終的な順序付けを行うような構成を考える。
本稿では,この問題に対する統計的枠組みを調査し,戦略行動検出のための原則テストを設計する。
本試験は誤報の保証が強いことを証明し, 現実的な設定で検出能力を評価する。
そのために私たちは,対象から戦略的行動を引き出す実験を設計,実行し,独立した関心を持つ可能性のある戦略的行動のパターンのデータセットを公開する。
次に、収集したデータを使用して、テストの強力な検出能力を示す、実および半合成的な評価を行う。
関連論文リスト
- Strategic Evaluation: Subjects, Evaluators, and Society [1.1606619391009658]
評価自体の設計は、評価者の持つ目標をさらに進めるものとして理解することができると論じる。
3つの相互作用エージェントを用いた評価のプロセスを表現するモデルを提案した。
評価者をその戦略として扱うことで、意思決定対象に向けられた精査を再放送することができます。
論文 参考訳(メタデータ) (2023-10-05T16:33:08Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - A Dataset on Malicious Paper Bidding in Peer Review [84.68308372858755]
悪意あるレビュアーは、紙の割り当てを非倫理的に操作するために戦略的に入札した。
この問題を緩和するための方法の作成と評価への重要な障害は、悪意ある紙入札に関する公開データの欠如である。
我々は、参加者に正直に、悪意的に入札するよう指示されたモックカンファレンス活動から収集された、新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2022-06-24T20:23:33Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - The Price of Strategyproofing Peer Assessment [30.51994705981846]
戦略行動は、ある種のピアアセスメントを必要とする様々な現実世界のアプリケーションにおいて、基本的な問題である。
個人の著作は、評価している提出書と競合しているため、自己の提出書の相対的地位を高めるために不当な評価をすることができる。
この問題は一般的に、個人を分割し、異なるサブセットからのみの作業を評価するよう割り当てることによって解決される。
論文 参考訳(メタデータ) (2022-01-25T21:16:33Z) - Improving Peer Assessment with Graph Convolutional Networks [2.105564340986074]
ピアアセスメントは専門家による評価ほど正確ではないかもしれない。
まず,様々なピアアセスメント設定を表現可能なマルチリレーショナル重み付きネットワークとして,ピアアセスメントをモデル化する。
本稿では,評価パターンとユーザ動作を学習し,専門家の評価をより正確に予測するグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-04T03:43:09Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - Evaluating the Robustness of Collaborative Agents [25.578427956101603]
ソフトウェアエンジニアリングにおける emphunit テストの実践から着想を得ています。
我々はこの方法論をOvercooked-AI環境のための単体テストスイートの構築に適用する。
論文 参考訳(メタデータ) (2021-01-14T09:02:45Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。