論文の概要: SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
- arxiv url: http://arxiv.org/abs/2502.06394v1
- Date: Mon, 10 Feb 2025 12:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:46.560246
- Title: SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
- Title(参考訳): SynthDetoxM:現代のLLMはFew-Shot並列デトックス化データアノテーション
- Authors: Daniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko,
- Abstract要約: 既存の多言語テキストデトックス化へのアプローチは、並列多言語データセットの不足によって妨げられている。
本稿では,手動で収集・合成した多言語並列テキストデトックス化データセットであるSynthDetoxMを紹介する。
- 参考スコア(独自算出の注目度): 61.82799141938912
- License:
- Abstract: Existing approaches to multilingual text detoxification are hampered by the scarcity of parallel multilingual datasets. In this work, we introduce a pipeline for the generation of multilingual parallel detoxification data. We also introduce SynthDetoxM, a manually collected and synthetically generated multilingual parallel text detoxification dataset comprising 16,000 high-quality detoxification sentence pairs across German, French, Spanish and Russian. The data was sourced from different toxicity evaluation datasets and then rewritten with nine modern open-source LLMs in few-shot setting. Our experiments demonstrate that models trained on the produced synthetic datasets have superior performance to those trained on the human-annotated MultiParaDetox dataset even in data limited setting. Models trained on SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our dataset and code to help further research in multilingual text detoxification.
- Abstract(参考訳): 既存の多言語テキストデトックス化へのアプローチは、並列多言語データセットの不足によって妨げられている。
本研究では,多言語並列デトックス化データ生成のためのパイプラインを提案する。
また,SynthDetoxMは,ドイツ語,フランス語,スペイン語,ロシア語にまたがる16,000の高品質なデトックス化文からなる,手動で収集・合成された多言語並列テキストデトックス化データセットである。
データは、さまざまな毒性評価データセットからソースされ、その後、9つのモダンなオープンソースLLMで、数ショットで書き直された。
実験により,生成した合成データセットでトレーニングしたモデルは,データ制限条件下であっても,人手によるマルチパラデトックスデータセットでトレーニングしたモデルよりも優れた性能を示した。
SynthDetoxMで訓練されたモデルは、全て評価されたLCMを数ショットで上回った。
我々は、多言語テキストデトックス化のさらなる研究を支援するために、データセットとコードをリリースする。
関連論文リスト
- SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification [41.94295877935867]
本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
論文 参考訳(メタデータ) (2024-07-07T17:19:34Z) - CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models [36.82189550072201]
既存のテキスト・ツー・テーブルのデータセットは典型的には英語を指向する。
大規模言語モデル(LLM)は、多言語設定における一般的なタスクソルバとして大きな成功を収めている。
本研究は,中国語のテキスト・ツー・テーブル・データセットであるCT-Evalを用いてLCMのベンチマークを行う。
論文 参考訳(メタデータ) (2024-05-20T16:58:02Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation [20.703102374139537]
本稿では,Distilling dataset into Language Model (DiLM) と呼ばれる新しいテキストデータセット蒸留手法を提案する。
DiLMは、合成サンプルを直接最適化するのではなく、テキストデータとして情報的合成トレーニングサンプルを生成するために、言語モデルを訓練する。
私たちのコードはhttps://github.com/arumaekawa/DiLM.comで公開されます。
論文 参考訳(メタデータ) (2024-03-30T06:40:54Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。