論文の概要: A Framework to Assess (Dis)agreement Among Diverse Rater Groups
- arxiv url: http://arxiv.org/abs/2311.05074v1
- Date: Thu, 9 Nov 2023 00:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:32:26.227377
- Title: A Framework to Assess (Dis)agreement Among Diverse Rater Groups
- Title(参考訳): 異種ラタグループ間の(離散的な)認識を評価する枠組み
- Authors: Vinodkumar Prabhakaran, Christopher Homan, Lora Aroyo, Alicia Parrish,
Alex Taylor, Mark D\'iaz, Ding Wang
- Abstract要約: 本研究では,異なるレーダサブグループ間の視点において,系統的な多様性を測定するための総合的不一致分析フレームワークを提案する。
分析の結果,他のものよりも多様な視点を持つ特定のレーダ群が明らかとなり,安全アノテーションを検討する上で重要な人口動態軸が示唆された。
- 参考スコア(独自算出の注目度): 19.33317910796263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in conversational AI have created an urgent need for
safety guardrails that prevent users from being exposed to offensive and
dangerous content. Much of this work relies on human ratings and feedback, but
does not account for the fact that perceptions of offense and safety are
inherently subjective and that there may be systematic disagreements between
raters that align with their socio-demographic identities. Instead, current
machine learning approaches largely ignore rater subjectivity and use gold
standards that obscure disagreements (e.g., through majority voting). In order
to better understand the socio-cultural leanings of such tasks, we propose a
comprehensive disagreement analysis framework to measure systematic diversity
in perspectives among different rater subgroups. We then demonstrate its
utility by applying this framework to a dataset of human-chatbot conversations
rated by a demographically diverse pool of raters. Our analysis reveals
specific rater groups that have more diverse perspectives than the rest, and
informs demographic axes that are crucial to consider for safety annotations.
- Abstract(参考訳): 会話型AIの最近の進歩は、ユーザーが攻撃的で危険なコンテンツに晒されることを防ぐための、緊急の安全ガードレールの必要性を生み出している。
この研究の多くは人間の格付けとフィードバックに依存しているが、犯罪と安全の認識は本質的に主観的であり、社会デミックのアイデンティティに合致する格付け者の間に系統的な不一致があるという事実は考慮されていない。
代わりに、現在の機械学習のアプローチは、レートの主観性をほとんど無視し、不一致(多数決など)を曖昧にするゴールド標準を使用する。
これらの課題の社会的文化的傾向をよりよく理解するために,異なるレートラー群間の視点における系統的多様性を測定するための包括的不一致分析フレームワークを提案する。
次に、人口統計学的に多様なラッカーのプールによって評価された人間とチャットボットの会話のデータセットにこのフレームワークを適用することで、その実用性を実証する。
本研究は,他よりも多様な視点を持つ特定のパーサー群を明らかにし,安全アノテーションを考慮すべき要因を人口統計学的軸に知らせる。
関連論文リスト
- The effect of diversity on group decision-making [12.452229182692967]
小集団は対話を通じて直感的なバイアスを克服し、個人の意思決定を改善することができることを示す。
大規模なサンプルと異なる運用方法によって、より認知的な多様性がより成功したグループ熟考と結びついていることが一貫して明らかになる。
論文 参考訳(メタデータ) (2024-02-02T14:15:01Z) - Diverse, but Divisive: LLMs Can Exaggerate Gender Differences in Opinion
Related to Harms of Misinformation [8.066880413153187]
本稿では,多言語モデル(LLM)が誤報の被害を評価する際に,様々なグループの視点を反映できるかどうかを検討する。
TopicMisinfoデータセットには,さまざまなトピックから160件のファクトチェックされたクレームが含まれている。
GPT 3.5-Turboは、経験的に観察された意見の男女差を反映するが、これらの差の程度を増幅する。
論文 参考訳(メタデータ) (2024-01-29T20:50:28Z) - Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-08T21:03:18Z) - When the Majority is Wrong: Modeling Annotator Disagreement for
Subjective Tasks [50.74030912441755]
ヘイトスピーチの検出における重要な問題は、ある声明が人口集団に対して攻撃的であるかどうかを決定することである。
我々は、潜在的に攻撃的なテキストに基づいて、個々のアノテータ評価を予測するモデルを構築した。
その結果、アノテータの評価は、その人口統計情報とオンラインコンテンツに関する意見を用いて予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-11T07:55:20Z) - Measuring Equality in Machine Learning Security Defenses: A Case Study
in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。
提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。
本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文 参考訳(メタデータ) (2023-02-17T16:19:26Z) - Joint Multisided Exposure Fairness for Recommendation [76.75990595228666]
本稿では,消費者と生産者の両面から共同で問題をモデル化する,露出公正度尺度のファミリを定式化する。
具体的には、双方の利害関係者に対するグループ属性について、個別のユーザや項目を超えて、より体系的なバイアスを推奨するフェアネスの懸念を識別し緩和する。
論文 参考訳(メタデータ) (2022-04-29T19:13:23Z) - Investigating User Radicalization: A Novel Dataset for Identifying
Fine-Grained Temporal Shifts in Opinion [7.028604573959653]
本稿では,微妙な意見揺らぎをモデル化し,微粒な姿勢を検出するための,革新的な注釈付きデータセットを提案する。
データセットには、時間とともに、および会話スレッド全体で、十分な量のスタンスポラリティとユーザ毎の強度ラベルが含まれている。
すべての投稿は非専門家によって注釈付けされ、データの大部分は専門家によって注釈付けされている。
論文 参考訳(メタデータ) (2022-04-16T09:31:25Z) - Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and
Benchmarks [95.29345070102045]
本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。
まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。
中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
論文 参考訳(メタデータ) (2022-02-16T11:59:29Z) - Fully Unsupervised Person Re-identification viaSelective Contrastive
Learning [58.5284246878277]
人物再識別(ReID)は、様々なカメラが捉えた画像の中から同一人物を検索することを目的としている。
教師なし特徴学習のための新しい選択型コントラスト学習フレームワークを提案する。
その結果,教師なしのReIDにおける手法の優位性について,最先端技術と比較した。
論文 参考訳(メタデータ) (2020-10-15T09:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。