論文の概要: SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification
- arxiv url: http://arxiv.org/abs/2407.05449v1
- Date: Sun, 7 Jul 2024 17:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 19:38:04.490057
- Title: SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification
- Title(参考訳): SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformer for Text Detoxification (英語)
- Authors: Elisei Rykov, Konstantin Zaytsev, Ivan Anisimov, Alexandr Voronin,
- Abstract要約: 本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a solution for the Multilingual Text Detoxification task in the PAN-2024 competition of the SmurfCat team. Using data augmentation through machine translation and a special filtering procedure, we collected an additional multilingual parallel dataset for text detoxification. Using the obtained data, we fine-tuned several multilingual sequence-to-sequence models, such as mT0 and Aya, on a text detoxification task. We applied the ORPO alignment technique to the final model. Our final model has only 3.7 billion parameters and achieves state-of-the-art results for the Ukrainian language and near state-of-the-art results for other languages. In the competition, our team achieved first place in the automated evaluation with a score of 0.52 and second place in the final human evaluation with a score of 0.74.
- Abstract(参考訳): 本稿では,SmurfCat チームの PAN-2024 コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
得られたデータを用いて,mT0 や Aya などの多言語列列列列モデルをテキストデトックス化タスクで微調整した。
最終モデルにORPOアライメント手法を適用した。
我々の最終モデルはわずか37億のパラメータしか持たず、ウクライナ語の最先端結果と他の言語の最先端結果が得られる。
競技では, 自動評価では0.52点, 最終評価では0.74点で2位となった。
関連論文リスト
- MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - Text Detoxification as Style Transfer in English and Hindi [1.183205689022649]
本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。
類似したタスクからの知識伝達,マルチタスク学習,削除と再構築の3つのアプローチを提案する。
以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:30:41Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - Text2Topic: Multi-Label Text Classification System for Efficient Topic
Detection in User Generated Content with Zero-Shot Capabilities [2.7311827519141363]
マルチラベル分類性能の高いText to Topic(Text2Topic)を提案する。
Text2Topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、プロダクションスケールのバッチ推論を可能にする。
このモデルは現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPで他のモデルより優れている。
論文 参考訳(メタデータ) (2023-10-23T11:33:24Z) - Tackling Low-Resourced Sign Language Translation: UPC at WMT-SLT 22 [4.382973957294345]
本稿では,機械翻訳ワークショップ2022手話翻訳タスクのためにカタルーニャ大学ポリテシカ校で開発されたシステムについて述べる。
本研究では、Fairseqモデリングツールキットで実装されたTransformerモデルを用いる。
我々は,語彙サイズ,データ拡張手法,ENIX-14Tデータセットを用いた事前学習実験を行った。
論文 参考訳(メタデータ) (2022-12-02T12:42:24Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。