論文の概要: UPB at IberLEF-2023 AuTexTification: Detection of Machine-Generated Text
using Transformer Ensembles
- arxiv url: http://arxiv.org/abs/2308.01408v1
- Date: Wed, 2 Aug 2023 20:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:54:17.522186
- Title: UPB at IberLEF-2023 AuTexTification: Detection of Machine-Generated Text
using Transformer Ensembles
- Title(参考訳): UPB at IberLEF-2023 AuTexTification: Transformer Ensembles を用いた機械生成テキストの検出
- Authors: Andrei-Alexandru Preda, Dumitru-Clementin Cercel, Traian Rebedea,
Costin-Gabriel Chiru
- Abstract要約: 本稿では, UPB チームによる AuTexTification 共有タスクへのソリューションとして, IberleF-2023 の一部として紹介する。
我々の最高のパフォーマンスモデルは、英語データセットで66.63%、スペイン語データセットで67.10%のマクロF1スコアを達成した。
- 参考スコア(独自算出の注目度): 0.5324802812881543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the solutions submitted by the UPB team to the
AuTexTification shared task, featured as part of IberLEF-2023. Our team
participated in the first subtask, identifying text documents produced by large
language models instead of humans. The organizers provided a bilingual dataset
for this subtask, comprising English and Spanish texts covering multiple
domains, such as legal texts, social media posts, and how-to articles. We
experimented mostly with deep learning models based on Transformers, as well as
training techniques such as multi-task learning and virtual adversarial
training to obtain better results. We submitted three runs, two of which
consisted of ensemble models. Our best-performing model achieved macro
F1-scores of 66.63% on the English dataset and 67.10% on the Spanish dataset.
- Abstract(参考訳): 本稿では, UPB チームによる AuTexTification 共有タスクへのソリューションとして, IberleF-2023 の一部として紹介する。
私たちのチームは最初のサブタスクに参加し、人間の代わりに大きな言語モデルによって作成された文書を特定しました。
主催者は、法律文書、ソーシャルメディア投稿、ハウツー記事など、複数のドメインをカバーする英語とスペイン語のテキストからなる、このサブタスクのためのバイリンガルデータセットを提供した。
トランスフォーマーに基づくディープラーニングモデルや,マルチタスク学習や仮想敵訓練といったトレーニング技術を用いて,よりよい結果を得るための実験を行った。
私たちは3つのランを提出しました。そのうち2つはアンサンブルモデルです。
我々の最高のパフォーマンスモデルは、英語データセットで66.63%、スペイン語データセットで67.10%のマクロF1スコアを達成した。
関連論文リスト
- Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings [22.71166607645311]
本稿では,最先端のバイリンガルテキスト埋め込みモデルについて紹介する。
これらのモデルは、最大8192トークンで長いテキスト入力を処理することができる。
STSタスクのモデル性能を大幅に改善しました。
我々は、ドイツ語とスペイン語の埋め込みモデルのベンチマークを含むように、Massive Text Embedding Benchmarkを拡張した。
論文 参考訳(メタデータ) (2024-02-26T20:53:12Z) - Overview of AuTexTification at IberLEF 2023: Detection and Attribution
of Machine-Generated Text in Multiple Domains [6.44756483013808]
本稿では,IberleF 2023 Workshop in Iberian Languages Evaluation Forumの一環として,AuTexTificationタスクの概要を紹介する。
AuTexTificationデータセットには、2つの言語(英語とスペイン語)と5つのドメイン(ツイート、レビュー、ニュース、法律、ハウツー記事)に160万以上のテキストが含まれています。
合計114チームが参加し、うち36チームが175回、20チームがワークノートを送付した。
論文 参考訳(メタデータ) (2023-09-20T13:10:06Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2021-12-16T08:58:52Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。