Fugu-MT 論文翻訳(概要): CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages

論文の概要: CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages

arxiv url: http://arxiv.org/abs/2501.00713v2
Date: Sat, 04 Jan 2025 19:38:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 12:46:04.955654
Title: CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages
Title（参考訳）: 多言語対音声生成におけるCODEOFCONDUCT:低リソース言語におけるロバスト対音声生成のための文脈認識モデル
Authors: Michael Bennie, Bushi Xiao, Chryseis Xinyi Liu, Demi Zhang, Jian Meng, Alayo Tripp,
Abstract要約: 本稿では,MCG-COING-2025共有タスクにおいて大きな成功を収めた,頑健な対音声生成のための文脈認識モデルを提案する。多言語データセットに微調整されたシミュレーションアニーリングアルゴリズムを活用することで、モデルはヘイトスピーチに対する現実的に正確な応答を生成する。 4つの言語で最先端のパフォーマンスを実証し、バスク語で第1位、イタリア語で第2位、英語とスペイン語で第3位にランク付けしました。
参考スコア（独自算出の注目度）: 1.9263811967110864
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper introduces a context-aware model for robust counterspeech generation, which achieved significant success in the MCG-COLING-2025 shared task. Our approach particularly excelled in low-resource language settings. By leveraging a simulated annealing algorithm fine-tuned on multilingual datasets, the model generates factually accurate responses to hate speech. We demonstrate state-of-the-art performance across four languages (Basque, English, Italian, and Spanish), with our system ranking first for Basque, second for Italian, and third for both English and Spanish. Notably, our model swept all three top positions for Basque, highlighting its effectiveness in low-resource scenarios. Evaluation of the shared task employs both traditional metrics (BLEU, ROUGE, BERTScore, Novelty) and JudgeLM based on LLM. We present a detailed analysis of our results, including an empirical evaluation of the model performance and comprehensive score distributions across evaluation metrics. This work contributes to the growing body of research on multilingual counterspeech generation, offering insights into developing robust models that can adapt to diverse linguistic and cultural contexts in the fight against online hate speech.
Abstract（参考訳）: 本稿では,MCG-COING-2025共有タスクにおいて大きな成功を収めた,頑健な対音声生成のための文脈認識モデルを提案する。弊社のアプローチは、低リソースの言語設定で特に優れている。多言語データセットに微調整されたシミュレーションアニーリングアルゴリズムを活用することで、モデルはヘイトスピーチに対する現実的に正確な応答を生成する。私たちは4つの言語(バスク語、英語、イタリア語、スペイン語)で最先端のパフォーマンスを実演し、バスク語で1位、イタリア語で2位、英語とスペイン語で3位としています。特に、私たちのモデルはバスクの3つのトップポジション全てを席巻し、低リソースのシナリオにおけるその有効性を強調しました。共有タスクの評価には、従来のメトリクス(BLEU, ROUGE, BERTScore, Novelty)とLLMに基づくジャッジLMの両方が使用されている。本報告では,評価指標間のモデル性能と総合的なスコア分布の実証的評価を含む,実験結果の詳細な分析を行う。この研究は多言語対音声生成の研究に寄与し、オンラインヘイトスピーチとの戦いにおいて多様な言語や文化の文脈に適応できる堅牢なモデルを開発するための洞察を提供する。

関連論文リスト

Multilingual Definition Modeling [1.9409995498330783]
私たちは4つの新言語(スペイン語、フランス語、ポルトガル語、ドイツ語)に単言語辞書データを使用します。このデータに微調整を施すと, 単文単語の定義モデル上で, 事前学習した多言語言語モデルの性能を検証した。結果から,多言語モデルでは英語のオンペア化が可能であるが,言語間相乗効果の可能性が示唆された。
論文参考訳（メタデータ） (2025-06-02T09:48:37Z)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。 Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。 Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2024-02-20T12:36:40Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。 3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文参考訳（メタデータ） (2023-05-24T17:59:05Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文参考訳（メタデータ） (2022-11-02T14:54:45Z)
Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文参考訳（メタデータ） (2022-06-25T12:36:11Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文参考訳（メタデータ） (2021-09-28T04:43:11Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)
Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文参考訳（メタデータ） (2020-04-14T13:14:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。