論文の概要: Human-in-the-Loop for Data Collection: a Multi-Target Counter Narrative
Dataset to Fight Online Hate Speech
- arxiv url: http://arxiv.org/abs/2107.08720v1
- Date: Mon, 19 Jul 2021 09:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:52:03.167039
- Title: Human-in-the-Loop for Data Collection: a Multi-Target Counter Narrative
Dataset to Fight Online Hate Speech
- Title(参考訳): データ収集のためのヒューマン・イン・ザ・ループ:オンラインヘイトスピーチに対抗するマルチターゲットカウンタナラティブデータセット
- Authors: Margherita Fanton, Helena Bonaldi, Serra Sinem Tekiroglu, Marco
Guerini
- Abstract要約: カウンター・ナラティブと呼ばれる、情報や非攻撃的な反応によるヘイトフルコンテンツの影響を損なうことは、より健康的なオンラインコミュニティを実現するための解決策として浮上している。
本稿では、生成言語モデルを反復的に洗練する新しいヒューマン・イン・ザ・ループデータ収集手法を提案する。
その結果、この方法論はスケーラブルであり、多種多様で斬新で費用対効果の高いデータ収集を促進することが示されている。
- 参考スコア(独自算出の注目度): 10.323063834827416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Undermining the impact of hateful content with informed and non-aggressive
responses, called counter narratives, has emerged as a possible solution for
having healthier online communities. Thus, some NLP studies have started
addressing the task of counter narrative generation. Although such studies have
made an effort to build hate speech / counter narrative (HS/CN) datasets for
neural generation, they fall short in reaching either high-quality and/or
high-quantity. In this paper, we propose a novel human-in-the-loop data
collection methodology in which a generative language model is refined
iteratively by using its own data from the previous loops to generate new
training samples that experts review and/or post-edit. Our experiments
comprised several loops including dynamic variations. Results show that the
methodology is scalable and facilitates diverse, novel, and cost-effective data
collection. To our knowledge, the resulting dataset is the only expert-based
multi-target HS/CN dataset available to the community.
- Abstract(参考訳): ヘイトフルコンテンツとインフォームドおよび非攻撃的反応、いわゆるカウンターナラティブの効果を損なうことは、より健康的なオンラインコミュニティの解決策として浮上している。
このように、NLP研究は反物語生成の課題に対処し始めている。
このような研究は、ニューラルジェネレーションのためのヘイトスピーチ/カウンターナラティブ(hs/cn)データセットの構築に尽力しているが、高品質と高質のいずれにも到達できない。
本稿では,前回のループから得られたデータを用いて,生成言語モデルを反復的に洗練し,専門家がレビューや編集後の新たなトレーニングサンプルを生成する,新しいヒューマン・イン・ザ・ループデータ収集手法を提案する。
我々の実験は、動的変動を含むいくつかのループで構成された。
その結果、この方法論はスケーラブルであり、多種多様で斬新で費用対効果の高いデータ収集を促進することが示されている。
私たちの知る限り、得られたデータセットは、コミュニティで利用可能な、エキスパートベースのマルチターゲットHS/CNデータセットである。
関連論文リスト
- CorrSynth -- A Correlated Sampling Method for Diverse Dataset Generation from LLMs [5.89889361990138]
大規模言語モデル(LLM)は、ゼロショットプロンプトと少数ショットプロンプトを使用して、多様なタスクにおいて顕著な性能を示した。
本研究では,下流の課題に対して,学生モデルが訓練されるような,多様性の高いデータセットを生成するという課題に取り組む。
復号時間誘導に基づくアプローチの経路を考慮し、相関したサンプリング戦略を用いて、入力プロンプトにより多様で忠実なデータを生成するCorr Synthを提案する。
論文 参考訳(メタデータ) (2024-11-13T12:09:23Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Detect Hate Speech in Unseen Domains using Multi-Task Learning: A Case
Study of Political Public Figures [7.52579126252489]
複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、以前に見つからなかったデータセットで予測する場合には大幅に改善される。
PubFigsと呼ばれる新しいデータセットも収集し、アメリカ公共政治図の問題点に焦点をあてた。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Does Putting a Linguist in the Loop Improve NLU Data Collection? [34.34874979524489]
クラウドソーシングNLPデータセットには、データ収集が完了した後にのみ識別される体系的なギャップとバイアスが含まれます。
テストケースとして自然言語を推論し、データ収集中に言語学者をループに配置することが有益かどうかを問う。
論文 参考訳(メタデータ) (2021-04-15T00:31:10Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。