Fugu-MT 論文翻訳(概要): Directions in Abusive Language Training Data: Garbage In, Garbage Out

論文の概要: Directions in Abusive Language Training Data: Garbage In, Garbage Out

arxiv url: http://arxiv.org/abs/2004.01670v3
Date: Mon, 19 Jul 2021 07:40:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-17 04:28:02.910609
Title: Directions in Abusive Language Training Data: Garbage In, Garbage Out
Title（参考訳）: Abusive Language Training Dataの方向性: ガーベッジイン、ガーベージアウト
Authors: Bertie Vidgen and Leon Derczynski
Abstract要約: 本稿では,乱用言語データのカタログ化のためのオープンWebサイトとともに,乱用言語データセットの作成とコンテンツについて体系的にレビューする。この知識の収集は、この複雑で多種多様なデータを扱う実践者に対してエビデンスベースのレコメンデーションを提供する合成につながる。
参考スコア（独自算出の注目度）: 13.754996392663314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data-driven analysis and detection of abusive online content covers many different tasks, phenomena, contexts, and methodologies. This paper systematically reviews abusive language dataset creation and content in conjunction with an open website for cataloguing abusive language data. This collection of knowledge leads to a synthesis providing evidence-based recommendations for practitioners working with this complex and highly diverse data.
Abstract（参考訳）: データ駆動分析と乱用オンラインコンテンツの検出は、様々なタスク、現象、文脈、方法論をカバーする。本稿では,乱用言語データのカタログ作成のためのオープンwebサイトと連携して,乱用言語データセットの作成とコンテンツを体系的にレビューする。この知識の収集は、この複雑で多種多様なデータを扱う実践者に対してエビデンスベースのレコメンデーションを提供する合成につながる。

関連論文リスト

Data Therapist: Eliciting Domain Knowledge from Subject Matter Experts Using Large Language Models [17.006423792670414]
我々は、ドメインの専門家が混在開始プロセスを通じて暗黙の知識を外部化するのに役立つWebベースのツールであるData Therapistを紹介します。得られた構造化知識ベースは、人間と自動化された可視化設計の両方に通知することができる。
論文参考訳（メタデータ） (2025-05-01T11:10:17Z)
Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文参考訳（メタデータ） (2025-04-23T11:29:10Z)
Organize the Web: Constructing Domains Enhances Pre-Training Data Curation [129.27104172458363]
トピックとフォーマットの両面からWebページを整理するフレームワークを開発する。我々は,大規模な言語モデルからアノテーションを抽出して,事前学習データを自動的にアノテートし,効率的なキュレーションを行う。我々の研究は、ドメインの構築と混合が、品質ベースのデータキュレーション手法の貴重な補完となることを実証している。
論文参考訳（メタデータ） (2025-02-14T18:02:37Z)
Detection-Fusion for Knowledge Graph Extraction from Videos [49.1574468325115]
本稿では,知識グラフを用いた動画アノテート手法を提案する。具体的には,この課題に対するディープラーニングモデルを提案する。また,知識グラフ構築に背景知識を組み込むためのモデルの拡張も提案する。
論文参考訳（メタデータ） (2024-12-30T20:26:11Z)
Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文参考訳（メタデータ） (2024-07-23T14:31:59Z)
Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文参考訳（メタデータ） (2024-05-31T07:51:19Z)
When a Language Question Is at Stake. A Revisited Approach to Label Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文参考訳（メタデータ） (2023-11-17T13:35:10Z)
Automated Extraction of Fine-Grained Standardized Product Information from Unstructured Multilingual Web Data [66.21317300595483]
機械学習の最近の進歩と最近発表された多言語データセットが組み合わさって、堅牢な製品属性抽出を可能にしていることを示す。私たちのモデルは、オンラインショップや言語、あるいはその両方で、確実に製品属性を予測できます。
論文参考訳（メタデータ） (2023-02-23T16:26:11Z)
Hate Speech and Offensive Language Detection using an Emotion-aware Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文参考訳（メタデータ） (2023-02-17T09:31:06Z)
Countering Malicious Content Moderation Evasion in Online Social Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文参考訳（メタデータ） (2022-12-27T16:08:49Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Abusive Language Detection in Heterogeneous Contexts: Dataset Collection and the Role of Supervised Attention [9.597481034467915]
乱用言語は、オンラインソーシャルプラットフォームにおいて大きな問題である。 YouTubeから11,000以上のコメントで、乱用言語の注釈付きデータセットを提供する。本稿では,教師付きアテンション機構を用いて乱用コンテンツを検出し,分類するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-05-24T06:50:19Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)
"To Target or Not to Target": Identification and Analysis of Abusive Text Using Ensemble of Classifiers [18.053219155702465]
ソーシャルメディアプラットフォーム上での虐待的・憎悪的コンテンツを識別・分析するためのアンサンブル学習手法を提案する。私たちの積み重ねられたアンサンブルは、3つの機械学習モデルで構成されており、言語のさまざまな側面をキャプチャし、不適切な言語に関する多様な一貫性のある洞察を提供する。
論文参考訳（メタデータ） (2020-06-05T06:59:22Z)
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文参考訳（メタデータ） (2019-10-23T17:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。