論文の概要: WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection
- arxiv url: http://arxiv.org/abs/2003.06190v1
- Date: Fri, 13 Mar 2020 10:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:39:59.801638
- Title: WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection
- Title(参考訳): WAC:オンライン乱用検知のためのウィキペディア会話コーパス
- Authors: No\'e Cecillon (LIA), Vincent Labatut (LIA), Richard Dufour (LIA),
Georges Linares (LIA)
- Abstract要約: 本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the spread of online social networks, it is more and more difficult to
monitor all the user-generated content. Automating the moderation process of
the inappropriate exchange content on Internet has thus become a priority task.
Methods have been proposed for this purpose, but it can be challenging to find
a suitable dataset to train and develop them. This issue is especially true for
approaches based on information derived from the structure and the dynamic of
the conversation. In this work, we propose an original framework, based on the
Wikipedia Comment corpus, with comment-level abuse annotations of different
types. The major contribution concerns the reconstruction of conversations, by
comparison to existing corpora, which focus only on isolated messages (i.e.
taken out of their conversational context). This large corpus of more than 380k
annotated messages opens perspectives for online abuse detection and especially
for context-based approaches. We also propose, in addition to this corpus, a
complete benchmarking platform to stimulate and fairly compare scientific works
around the problem of content abuse detection, trying to avoid the recurring
problem of result replication. Finally, we apply two classification methods to
our dataset to demonstrate its potential.
- Abstract(参考訳): オンラインソーシャルネットワークの普及に伴い、ユーザー生成コンテンツをすべて監視することはますます困難になっている。
インターネット上の不適切な交換コンテンツのモデレーションプロセスの自動化が優先課題となっている。
この目的のためにメソッドが提案されているが、トレーニングと開発に適したデータセットを見つけることは困難である。
この問題は、会話の構造とダイナミックな情報に基づくアプローチに特に当てはまる。
本研究では,ウィキペディアコメントコーパスをベースとした,さまざまなタイプのコメントレベルの乱用アノテーションを用いた独自のフレームワークを提案する。
主な貢献は会話の再構築であり、既存のコーパスと比較して孤立したメッセージのみに焦点を当てている(会話の文脈から取り除く)。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出問題に関する科学的研究を刺激し、適切に比較し、結果複製の繰り返し問題を回避するための完全なベンチマークプラットフォームを提案する。
最後に,データセットに2つの分類手法を適用し,その可能性を示す。
関連論文リスト
- LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback [16.57980268646285]
本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。
コンテンツ保存と適切性のバランスをとるための強化学習に基づく書き直し手法を提案する。
絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
論文 参考訳(メタデータ) (2024-06-05T15:18:08Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - Integrity and Junkiness Failure Handling for Embedding-based Retrieval:
A Case Study in Social Network Search [26.705196461992845]
埋め込みベースの検索は、eコマースやソーシャルネットワーク検索など、さまざまな検索アプリケーションで使われている。
本稿では,2021年初頭に開始された埋め込み型検索をソーシャルネットワーク検索エンジン上で解析する。
私たちは、それによってもたらされた失敗の2つの主要なカテゴリ、完全性とジャンク性を定義します。
論文 参考訳(メタデータ) (2023-04-18T20:53:47Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Perplexed by Quality: A Perplexity-based Method for Adult and Harmful
Content Detection in Multilingual Heterogeneous Web Data [0.0]
我々は多言語不均一なWebデータにおいて、成人と有害なコンテンツを検出する様々な方法を探究する。
我々は、成人および有害なテキストデータのみを訓練し、与えられたしきい値以上の難易度値の文書を選択する。
このアプローチは、文書を事実上2つの異なるグループにクラスタリングし、パープレキシティのしきい値の選択を大幅に促進します。
論文 参考訳(メタデータ) (2022-12-20T17:14:45Z) - A combined approach to the analysis of speech conversations in a contact
center domain [2.575030923243061]
本稿では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。
まず,Kaldi フレームワークをベースとした社内音声合成ソリューションの開発について詳述する。
そこで我々は,コールトランスクリプトのセマンティックタグ付けに対する異なるアプローチの評価と比較を行った。
最後に、タグ付け問題にJ48Sと呼ばれる決定木インデューサを適用する。
論文 参考訳(メタデータ) (2022-03-12T10:03:20Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。