論文の概要: LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation
- arxiv url: http://arxiv.org/abs/2503.07237v1
- Date: Mon, 10 Mar 2025 12:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.892993
- Title: LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation
- Title(参考訳): LLM-C3MOD:Human-LLMコラボレーティブシステム
- Authors: Junyeong Park, Seogyeong Jeong, Seyoung Song, Yohan Lee, Alice Oh,
- Abstract要約: 非ネイティブモデレーターは、ヘイトスピーチのモデレーションにおいて、文化的に特有の知識、感情、インターネット文化を理解するのに苦労している。
本システムでは, 作業負荷を83.6%削減しつつ, 78%の精度を実現している。
LLMによって適切に支持された非ネイティブモデレーターは、異文化間ヘイトスピーチのモデレーションに効果的に寄与することが示唆された。
- 参考スコア(独自算出の注目度): 13.018071368511507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content moderation is a global challenge, yet major tech platforms prioritize high-resource languages, leaving low-resource languages with scarce native moderators. Since effective moderation depends on understanding contextual cues, this imbalance increases the risk of improper moderation due to non-native moderators' limited cultural understanding. Through a user study, we identify that non-native moderators struggle with interpreting culturally-specific knowledge, sentiment, and internet culture in the hate speech moderation. To assist them, we present LLM-C3MOD, a human-LLM collaborative pipeline with three steps: (1) RAG-enhanced cultural context annotations; (2) initial LLM-based moderation; and (3) targeted human moderation for cases lacking LLM consensus. Evaluated on a Korean hate speech dataset with Indonesian and German participants, our system achieves 78% accuracy (surpassing GPT-4o's 71% baseline), while reducing human workload by 83.6%. Notably, human moderators excel at nuanced contents where LLMs struggle. Our findings suggest that non-native moderators, when properly supported by LLMs, can effectively contribute to cross-cultural hate speech moderation.
- Abstract(参考訳): コンテンツモデレーションはグローバルな課題だが、主要なテックプラットフォームはハイリソース言語を優先し、低リソース言語にはネイティブモデレーターが不足している。
効果的なモデレーションは文脈的手がかりの理解に依存するため、この不均衡は、非ネイティブモデレーターの限られた文化的理解による不適切なモデレーションのリスクを増大させる。
ユーザスタディを通じて、非ネイティブモデレーターは、ヘイトスピーチのモデレーションにおいて、文化的に特有の知識、感情、インターネット文化を理解するのに苦労している。
そこで我々は,(1)RAGを拡張した文化的文脈アノテーション,(2)初期のLCMに基づくモデレーション,(3)LLMコンセンサスを欠いた症例に対する人間によるモデレーションの3段階からなる,人間-LLM協調パイプラインLLM-C3MODを提案する。
韓国のヘイトスピーチデータセットをインドネシアとドイツの参加者と評価し、GPT-4oの71%のベースラインを通過させながら、人間の作業量を83.6%削減した。
特に、人間のモデレーターは、LSMが苦労するニュアンスな内容で優れています。
LLMによって適切に支持された非ネイティブモデレーターは、異文化間ヘイトスピーチのモデレーションに効果的に寄与することが示唆された。
関連論文リスト
- Are Open-Weight LLMs Ready for Social Media Moderation? A Comparative Study on Bluesky [12.301422819746698]
大規模言語モデル(LLM)は、ソーシャルメディアのモデレーションタスクに効果的に利用することができる。
4つのプロプライエタリモデルと3つのオープンウェイトモデルを評価した。
特異性は無作法な検出の感度を超えますが 反対は不寛容と脅威です
論文 参考訳(メタデータ) (2026-02-05T01:34:47Z) - LLMs and Cultural Values: the Impact of Prompt Language and Explicit Cultural Framing [0.21485350418225244]
大規模言語モデル(LLM)は、世界中のユーザによって急速に採用され、さまざまな言語でそれらと対話している。
言語と文化のフレーミングが、異なる国の人的価値にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-11-06T02:09:29Z) - Culture Cartography: Mapping the Landscape of Cultural Knowledge [50.502555170749694]
グローバルなユーザを安全かつ生産的に提供するためには、LLMには、事前トレーニング中に学ばない文化固有の知識が必要だ。
カルチャーカルトグラフィーと呼ばれる混合開始法を提案する。
ここで、LCMは、信頼度が低い回答を質問して注釈を初期化し、それ以前の知識とそのギャップの両方を明確にする。
これにより、人間の応答者がこれらのギャップを埋めて、直接編集することで、適切なトピックに向けてモデルを操ることが可能になる。
LLMが提案する質問に人間が答えるベースラインと比較すると、CultureExplorerはDeepSeek R1やGPT-4oのような主要なモデルが持つ知識をより効果的に生成することがわかった。
論文 参考訳(メタデータ) (2025-10-31T17:37:34Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Bias Mitigation or Cultural Commonsense? Evaluating LLMs with a Japanese Dataset [34.65197313327234]
大規模言語モデル(LLM)は社会的偏見を示し、様々な嫌悪法の開発を促す。
従来の研究は、偏見緩和の影響を、主に一般的な言語理解を測るタスクを通じて評価してきた。
文化的常識は社会的偏見と密接に関連しており、どちらも社会的規範や価値観に根ざしている。
論文 参考訳(メタデータ) (2025-09-29T08:45:50Z) - Position: LLMs Can be Good Tutors in Foreign Language Education [87.88557755407815]
我々は、外国語教育(FLE)において、大きな言語モデル(LLM)が効果的な家庭教師として機能する可能性を主張する。
具体的には、(1)データエンハンサーとして、(2)学習教材の作成や学生シミュレーションとして、(2)タスク予測器として、学習者の評価や学習経路の最適化に、(3)エージェントとして、そして、パーソナライズされた包括的教育を可能にする3つの重要な役割を果たせる。
論文 参考訳(メタデータ) (2025-02-08T06:48:49Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios [29.56889133557681]
本研究では、WhatsAppチャットから派生したデータセットに対する感情分析において、7つの主要言語モデル(LLM)の性能を評価する。
Mistral-7bとMixtral-8x7bは高いF1スコアを得たが、GPT-3.5-Turbo, Llama-2-70b, Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦労していた。
GPT-4とGPT-4-Turboは多様な言語入力を把握し、様々な文脈情報を管理するのに優れていた。
論文 参考訳(メタデータ) (2024-06-01T07:36:59Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models [26.64843536942309]
大規模言語モデル(LLM)は、ユーザ価値や文化にアウトプットを適応させる必要があります。
LLMの文化的適応性を評価するための評価フレームワークであるNormAdを紹介する。
我々はNormAd-Etiを作成した。これは、75か国における、社会的な倫理的関連文化規範を表す2.6kの状況記述のベンチマークである。
論文 参考訳(メタデータ) (2024-04-18T18:48:50Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Large language models that replace human participants can harmfully misportray and flatten identity groups [36.36009232890876]
我々は、現在のLLMのトレーニング方法には2つの固有の制限があることを示します。
我々は、LCMが人口集団の表現を誤解し、フラットにする可能性がある理由を分析的に論じる。
また、アイデンティティープロンプトがアイデンティティーを不可欠なものにする方法について、第3の制限についても論じる。
論文 参考訳(メタデータ) (2024-02-02T21:21:06Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Watch Your Language: Investigating Content Moderation with Large
Language Models [5.306187298781318]
大規模言語モデル(LLM)は、様々な自然言語タスクを実行する能力によって、人気が高まっている。
我々は,ルールベースのコミュニティ・モデレーションと有害なコンテンツ検出という2つの共通コンテンツモデレーションタスクにおいて,コモディティLLMのスイートを評価する。
論文 参考訳(メタデータ) (2023-09-25T20:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。