論文の概要: PANDA -- Paired Anti-hate Narratives Dataset from Asia: Using an LLM-as-a-Judge to Create the First Chinese Counterspeech Dataset
- arxiv url: http://arxiv.org/abs/2501.00697v2
- Date: Sat, 04 Jan 2025 19:36:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 13:45:26.537021
- Title: PANDA -- Paired Anti-hate Narratives Dataset from Asia: Using an LLM-as-a-Judge to Create the First Chinese Counterspeech Dataset
- Title(参考訳): LLM-as-a-Judgeを使って中国初の反ヘイト・ナラティクス・データセットを作成
- Authors: Michael Bennie, Demi Zhang, Bushi Xiao, Jing Cao, Chryseis Xinyi Liu, Jian Meng, Alayo Tripp,
- Abstract要約: 現代標準中国語の流行にもかかわらず、中国語の対訳資源は事実上存在しない。
中国本土でヘイトスピーチと戦うことに焦点を当てたコーパスを紹介する。
- 参考スコア(独自算出の注目度): 3.8227015675440192
- License:
- Abstract: Despite the global prevalence of Modern Standard Chinese language, counterspeech (CS) resources for Chinese remain virtually nonexistent. To address this gap in East Asian counterspeech research we introduce the a corpus of Modern Standard Mandarin counterspeech that focuses on combating hate speech in Mainland China. This paper proposes a novel approach of generating CS by using an LLM-as-a-Judge, simulated annealing, LLMs zero-shot CN generation and a round-robin algorithm. This is followed by manual verification for quality and contextual relevance. This paper details the methodology for creating effective counterspeech in Chinese and other non-Eurocentric languages, including unique cultural patterns of which groups are maligned and linguistic patterns in what kinds of discourse markers are programmatically marked as hate speech (HS). Analysis of the generated corpora, we provide strong evidence for the lack of open-source, properly labeled Chinese hate speech data and the limitations of using an LLM-as-Judge to score possible answers in Chinese. Moreover, the present corpus serves as the first East Asian language based CS corpus and provides an essential resource for future research on counterspeech generation and evaluation.
- Abstract(参考訳): 現代標準中国語の世界的な普及にもかかわらず、中国語の対訳資源は事実上存在しない。
東アジアのカウンタースピーチ研究におけるこのギャップを解決するために、中国本土におけるヘイトスピーチと戦うことに焦点を当てた現代標準マンダリンカウンタースピーチのコーパスを紹介します。
本稿では, LLM-as-a-Judge, シミュレーションアニーリング, ゼロショットCN生成, ラウンドロビンアルゴリズムを用いてCSを生成する手法を提案する。
これに続いて、品質とコンテキスト関連性に関する手作業による検証が行われる。
本稿では,中国語や非ユーロ圏言語における効果的な対音声生成手法について詳述する。例えば,集団が整列している独特な文化パターンや,言論マーカーの種類をプログラム的にヘイトスピーチ(HS)としてマークする言語パターンなどである。
生成したコーパスを解析し,オープンソースで適切にラベル付けされた中国語ヘイトスピーチデータがないこと,およびLLM-as-Judgeを用いて中国語で可能な回答を採点することの限界について,強い証拠を提供する。
さらに,本コーパスは東アジア初のCSコーパスとして機能し,対音声生成と評価の今後の研究に欠かせない資源となっている。
関連論文リスト
- Outcome-Constrained Large Language Models for Countering Hate Speech [10.434435022492723]
本研究は,会話結果に制約された反音声を生成する手法を開発することを目的とする。
我々は,大言語モデル(LLM)を用いて,テキスト生成プロセスに2つの望ましい会話結果を導入する実験を行った。
評価結果から,提案手法が望まれる結果に対して効果的に対応できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:44:06Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - Expanding Scope: Adapting English Adversarial Attacks to Chinese [11.032727439758661]
本稿では,SOTA攻撃アルゴリズムを中国語に適応させる方法について検討する。
実験の結果,これまで英語NLPに適用されていた攻撃手法は,中国語で高品質な敵の例を生成できることがわかった。
さらに, 生成した逆数例が高頻度でセマンティック一貫性が得られることを示す。
論文 参考訳(メタデータ) (2023-06-08T02:07:49Z) - Using Pre-Trained Language Models for Producing Counter Narratives
Against Hate Speech: a Comparative Study [17.338923885534193]
本稿では,CN自動生成作業における事前学習言語モデルの利用に関する広範な研究を行う。
まず、CNを生成するのに最適な特定の言語モデル(またはLMのクラス)と特定の復号機構が存在するかどうかを比較検討する。
自動回帰モデルとデコードを組み合わせることが、最も有望であることを示している。
論文 参考訳(メタデータ) (2022-04-04T12:44:47Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。