論文の概要: DoDo Learning: DOmain-DemOgraphic Transfer in Language Models for
Detecting Abuse Targeted at Public Figures
- arxiv url: http://arxiv.org/abs/2307.16811v2
- Date: Mon, 21 Aug 2023 10:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 22:34:07.105401
- Title: DoDo Learning: DOmain-DemOgraphic Transfer in Language Models for
Detecting Abuse Targeted at Public Figures
- Title(参考訳): DoDo学習: パブリックな図形をターゲットとした乱用検出のための言語モデルにおけるDomain-Demographic Transfer
- Authors: Hannah Rose Kirk, Angus R. Williams, Liam Burke, Yi-Ling Chung, Ivan
Debono, Pica Johansson, Francesca Stevens, Jonathan Bright, and Scott A. Hale
- Abstract要約: 我々は、DOmains(スポーツと政治)とDemOgraphics(女性と男性)にまたがる公人を対象にしたつぶやきを分類する。
少量の多様なデータが一般化やモデル適応に非常に有益であることがわかった。
一部の群は、他の群よりも一般性に寄与する。
- 参考スコア(独自算出の注目度): 8.517117322886493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public figures receive a disproportionate amount of abuse on social media,
impacting their active participation in public life. Automated systems can
identify abuse at scale but labelling training data is expensive, complex and
potentially harmful. So, it is desirable that systems are efficient and
generalisable, handling both shared and specific aspects of online abuse. We
explore the dynamics of cross-group text classification in order to understand
how well classifiers trained on one domain or demographic can transfer to
others, with a view to building more generalisable abuse classifiers. We
fine-tune language models to classify tweets targeted at public figures across
DOmains (sport and politics) and DemOgraphics (women and men) using our novel
DODO dataset, containing 28,000 labelled entries, split equally across four
domain-demographic pairs. We find that (i) small amounts of diverse data are
hugely beneficial to generalisation and model adaptation; (ii) models transfer
more easily across demographics but models trained on cross-domain data are
more generalisable; (iii) some groups contribute more to generalisability than
others; and (iv) dataset similarity is a signal of transferability.
- Abstract(参考訳): 市民はソーシャルメディア上で乱暴な乱用を受け、公共生活への積極的な参加に影響を及ぼす。
自動システムは大規模な乱用を識別できるが、トレーニングデータのラベル付けは高価で複雑で潜在的に有害である。
したがって、システムは効率的で汎用的であり、オンライン虐待の共有と特定の側面の両方を扱うことが望ましい。
我々は,より一般化可能な乱用分類器の構築を目的として,あるドメインや人口階層で訓練された分類器が他へどのように移行できるかを理解するために,グループ間テキスト分類のダイナミクスを探求する。
28,000のラベル付きエントリを含む新しいDODOデータセットを使用して、DOmains(スポーツと政治)とDemOgraphics(女性と男性)のパブリックな人物を対象にしたつぶやきを分類する言語モデルを微調整する。
私たちはそれを見つけ
(i)少量の多様なデータは、一般化及びモデル適応に非常に有益である。
(ii)モデルは人口統計学的に容易に伝達できるが、ドメイン間データに基づいて訓練されたモデルはより一般化できる。
(iii)あるグループは、他のグループよりも汎用性に寄与する。
(iv)データセットの類似性は転送可能性の信号である。
関連論文リスト
- Balancing the Scales: Enhancing Fairness in Facial Expression Recognition with Latent Alignment [5.784550537553534]
このワークル平均は、表情認識システムにおけるバイアスを軽減するために、潜在空間に基づく表現学習を行う。
また、ディープラーニングモデルの公平性と全体的な正確性も向上する。
論文 参考訳(メタデータ) (2024-10-25T10:03:10Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Maximizing Model Generalization for Machine Condition Monitoring with
Self-Supervised Learning and Federated Learning [4.214064911004321]
Deep Learningは、手動で設計された統計的特徴なしで、障害を診断し、生の状態監視データからマシンの健康を評価する。
伝統的な教師付き学習は、目に見えない対象ドメインに一般化するコンパクトで差別的な表現を学ぶのに苦労することがある。
本研究は,対象領域にモデルをコピーするために,ソース領域における特徴一般化の最大化と重み移動によるTLの適用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-27T17:57:54Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Detect Hate Speech in Unseen Domains using Multi-Task Learning: A Case
Study of Political Public Figures [7.52579126252489]
複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、以前に見つからなかったデータセットで予測する場合には大幅に改善される。
PubFigsと呼ばれる新しいデータセットも収集し、アメリカ公共政治図の問題点に焦点をあてた。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z) - Assessing Demographic Bias Transfer from Dataset to Model: A Case Study
in Facial Expression Recognition [1.5340540198612824]
2つのメトリクスはデータセットの表現バイアスとステレオタイプバイアスに焦点をあて、もう1つはトレーニングされたモデルの残差バイアスに焦点を当てている。
本稿では、一般的なAffectnetデータセットに基づくFER問題に適用することで、メトリクスの有用性を示す。
論文 参考訳(メタデータ) (2022-05-20T09:40:42Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - DomainMix: Learning Generalizable Person Re-Identification Without Human
Annotations [89.78473564527688]
本稿では,ラベル付き合成データセットとラベル付き実世界のデータセットを用いてユニバーサルモデルをトレーニングする方法を示す。
このように、人間のアノテーションはもはや不要であり、大規模で多様な現実世界のデータセットにスケーラブルである。
実験結果から,提案手法は完全な人間のアノテーションで訓練されたアノテーションとほぼ同等であることがわかった。
論文 参考訳(メタデータ) (2020-11-24T08:15:53Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。