論文の概要: Rater Cohesion and Quality from a Vicarious Perspective
- arxiv url: http://arxiv.org/abs/2408.08411v2
- Date: Fri, 4 Oct 2024 19:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 07:29:14.175040
- Title: Rater Cohesion and Quality from a Vicarious Perspective
- Title(参考訳): 鮮明な視点から見たラター凝集と品質
- Authors: Deepak Pandita, Tharindu Cyril Weerasooriya, Sujan Dutta, Sarah K. Luger, Tharindu Ranasinghe, Ashiqur R. KhudaBukhsh, Marcos Zampieri, Christopher M. Homan,
- Abstract要約: Vicariousアノテーションは、他の人がデータにアノテートすると考える方法をラウンダーに問うことによって、不一致を断ち切る方法である。
我々はレーダ結束指標を用いて、政治的関係や人種的背景がラテンダーの犯罪に対する認識に与える影響について検討する。
我々は,レーダの品質指標が,個人的および活気あるレベルにわたって,グループ内およびグループ間レーダの凝集にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 22.445283423317754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human feedback is essential for building human-centered AI systems across domains where disagreement is prevalent, such as AI safety, content moderation, or sentiment analysis. Many disagreements, particularly in politically charged settings, arise because raters have opposing values or beliefs. Vicarious annotation is a method for breaking down disagreement by asking raters how they think others would annotate the data. In this paper, we explore the use of vicarious annotation with analytical methods for moderating rater disagreement. We employ rater cohesion metrics to study the potential influence of political affiliations and demographic backgrounds on raters' perceptions of offense. Additionally, we utilize CrowdTruth's rater quality metrics, which consider the demographics of the raters, to score the raters and their annotations. We study how the rater quality metrics influence the in-group and cross-group rater cohesion across the personal and vicarious levels.
- Abstract(参考訳): 人間のフィードバックは、AI安全性、コンテンツモデレーション、感情分析など、不一致が頻発する領域にわたって、人間中心のAIシステムを構築するために不可欠である。
多くの意見の相違は、特に政治的に告発された状況において、ラッカーが反対の価値観や信念を持っているために生じる。
Vicariousアノテーションは、他の人がデータにアノテートすると考える方法をラウンダーに問うことによって、不一致を断ち切る方法である。
本稿では,レーダの不一致を緩和するための分析手法を用いた活気あるアノテーションの利用について検討する。
我々はレーダ結束指標を用いて、政治的関係や人種的背景がラテンダーの犯罪に対する認識に与える影響について検討する。
さらに、ラッカーの人口動態を考慮に入れたCrowdTruthのレーダ品質指標を用いて、ラッカーとそのアノテーションをスコアリングする。
我々は,レーダの品質指標が,個人的および活気あるレベルにわたって,グループ内およびグループ間レーダの凝集にどのように影響するかを検討する。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback [8.04095222893591]
我々は、人種、年齢、政治的スタンス、教育水準、LGBTQ+アノテーターのアイデンティティによって、公平さの選好に大きなギャップを見いだす。
また、テキストで言及された人口統計は、ユーザーがモデレーションにおいて個人の公平さをどう知覚するかに大きな影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-09T19:42:25Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case
Study on the Abstractness-Concreteness Continuum [8.086165096687772]
人間は極端な場合の尺度での格付けに強く同意する傾向にあるが、中規模語の判断はより意見の相違を示す。
本研究は,中規模単語の有意な多モーダルな特徴を特定するために,具体性評価に焦点をあて,相関関係と教師付き分類を実装した。
提案手法は, 使用前に, 微調整か, 中規模ターゲット語をフィルタリングすることである。
論文 参考訳(メタデータ) (2023-11-08T09:52:58Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Do Differences in Values Influence Disagreements in Online Discussions? [4.128725138940779]
オンライン議論における価値を推定するために、最先端のモデルがどのように使用できるかを示す。
人手によるアノテートラベルに基づいて,推定値のプロファイルを評価する。
その結果,値プロファイルの相違は,特定の場合の相違と相関することがわかった。
論文 参考訳(メタデータ) (2023-10-24T12:00:59Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information [11.227630261409706]
本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-12T14:04:53Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。