論文の概要: Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application
- arxiv url: http://arxiv.org/abs/2009.10277v1
- Date: Tue, 22 Sep 2020 02:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 21:49:35.299534
- Title: Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application
- Title(参考訳): ファセットラッシュ計測と多タスク深層学習による区間変数の構成:ヘイトスピーチへの応用
- Authors: Chris J. Kennedy, Geoff Bacon, Alexander Sahn, Claudia von Vacano
- Abstract要約: 本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
- 参考スコア(独自算出の注目度): 63.10266319378212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a general method for measuring complex variables on a continuous,
interval spectrum by combining supervised deep learning with the Constructing
Measures approach to faceted Rasch item response theory (IRT). We decompose the
target construct, hate speech in our case, into multiple constituent components
that are labeled as ordinal survey items. Those survey responses are
transformed via IRT into a debiased, continuous outcome measure. Our method
estimates the survey interpretation bias of the human labelers and eliminates
that influence on the generated continuous measure. We further estimate the
response quality of each labeler using faceted IRT, allowing responses from
low-quality labelers to be removed.
Our faceted Rasch scaling procedure integrates naturally with a multitask
deep learning architecture for automated prediction on new data. The ratings on
the theorized components of the target outcome are used as supervised, ordinal
variables for the neural networks' internal concept learning. We test the use
of an activation function (ordinal softmax) and loss function (ordinal
cross-entropy) designed to exploit the structure of ordinal outcome variables.
Our multitask architecture leads to a new form of model interpretation because
each continuous prediction can be directly explained by the constituent
components in the penultimate layer.
We demonstrate this new method on a dataset of 50,000 social media comments
sourced from YouTube, Twitter, and Reddit and labeled by 11,000 U.S.-based
Amazon Mechanical Turk workers to measure a continuous spectrum from hate
speech to counterspeech. We evaluate Universal Sentence Encoders, BERT, and
RoBERTa as language representation models for the comment text, and compare our
predictive accuracy to Google Jigsaw's Perspective API models, showing
significant improvement over this standard benchmark.
- Abstract(参考訳): 本稿では,教師付き深層学習とファセットされたラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数の一般的な測定法を提案する。
我々は,対象構成,ヘイトスピーチを,通常調査項目としてラベル付けされた複数の構成要素に分解する。
これらの調査の回答は、IRTを通して不偏の継続的な結果尺度に変換されます。
提案手法は, 人間のラベルの解釈バイアスを推定し, 生成した連続測定に与える影響を除去する。
さらに、ファセットIRTを用いて各ラベルの応答品質を推定し、低品質ラベルからの応答を除去する。
我々の顔のRaschスケーリング手順は、新しいデータの自動予測のためのマルチタスクディープラーニングアーキテクチャと自然に統合されます。
目標結果の理論的コンポーネントに対する評価は、ニューラルネットワークの内部概念学習のための教師付き順序変数として使用される。
本研究では,通常の結果変数の構造を利用するために,アクティベーション関数 (ordinal softmax) と損失関数 (ordinal cross-entropy) を試験する。
当社のマルチタスクアーキテクチャは,各連続予測をペナルティメート層を構成するコンポーネントによって直接説明できるため,新たな形式のモデル解釈につながります。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、ヘイトスピーチから反音声への連続スペクトルを測定する。
我々は,コメントテキストの言語表現モデルとしてUniversal Sentence Encoders,BERT,RoBERTaを評価し,予測精度をGoogle JigsawのパースペクティブAPIモデルと比較した。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - What's under the hood: Investigating Automatic Metrics on Meeting Summarization [7.234196390284036]
会議要約は、オンライン交流の増加を考慮した重要な課題となっている。
現在のデフォルトのメトリクスは、観測可能なエラーをキャプチャするのに苦労しており、相関が弱い。
特定のエラーに正確に反応するのはサブセットのみであり、ほとんどの相関関係は、エラーが要約品質に与える影響を反映していないか、あるいは失敗していることを示している。
論文 参考訳(メタデータ) (2024-04-17T07:15:07Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Evaluating the reliability of acoustic speech embeddings [10.5754802112615]
音声埋め込みは可変長音声列の定サイズ音響表現である。
ここでは,ABX識別と平均精度 (MAP) という2つの一般的な指標を,17の埋め込み手法にまたがる5つの言語で体系的に比較する。
ABXとMAPは相互に相関し,周波数推定を行う。
論文 参考訳(メタデータ) (2020-07-27T13:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。