論文の概要: Team QUST at SemEval-2024 Task 8: A Comprehensive Study of Monolingual
and Multilingual Approaches for Detecting AI-generated Text
- arxiv url: http://arxiv.org/abs/2402.11934v1
- Date: Mon, 19 Feb 2024 08:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:42:47.151239
- Title: Team QUST at SemEval-2024 Task 8: A Comprehensive Study of Monolingual
and Multilingual Approaches for Detecting AI-generated Text
- Title(参考訳): SemEval-2024 Task 8におけるチームQUST:AI生成テキスト検出のための単言語的・多言語的アプローチの総合的研究
- Authors: Xiaoman Xu, Xiangrun Li, Taihang Wang, Jianxiang Tian, Ye Jiang
- Abstract要約: 本稿では,タスク8SemEval 2024におけるチームQUSTの参加について述べる。
最初にデータセット上でデータ拡張とクリーニングを行い、モデルのトレーニング効率と精度を高めた。
単言語課題では,従来のディープラーニング手法,MPU,ファインチューニング,アダプタ,アンサンブル手法を評価した。
- 参考スコア(独自算出の注目度): 0.1499944454332829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the participation of team QUST in Task 8 SemEval 2024. We
first performed data augmentation and cleaning on the dataset to enhance model
training efficiency and accuracy. In the monolingual task, we evaluated
traditional deep-learning methods, multiscale positive-unlabeled framework
(MPU), fine-tuning, adapters and ensemble methods. Then, we selected the
top-performing models based on their accuracy from the monolingual models and
evaluated them in subtasks A and B. The final model construction employed a
stacking ensemble that combined fine-tuning with MPU. Our system achieved 8th
(scored 8th in terms of accuracy, officially ranked 13th) place in the official
test set in multilingual settings of subtask A. We release our system code
at:https://github.com/warmth27/SemEval2024_QUST
- Abstract(参考訳): 本稿では,タスク8SemEval 2024におけるチームQUSTの参加について述べる。
まず,モデルの学習効率と精度を高めるため,データセット上でデータ拡張とクリーニングを行った。
単言語課題では,従来のディープラーニング法,多スケール正無ラベルフレームワーク(mpu),微調整,アダプタ,アンサンブル法を評価した。
次に,単言語モデルからそれらの精度に基づいてトップパフォーマンスモデルを選択し,それらをサブタスクA,Bで評価した。
当社のシステムは,サブタスクAの多言語設定における公式テストセットにおいて,8位(精度では8位,公式には13位)を達成した。
関連論文リスト
- PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text? [4.463184061618504]
我々はSemEval-2024タスク8「マルチジェネレータ、マルチドメイン、ブラックボックスマシン生成テキスト検出」を提出する。
我々のアプローチは、RoBERTaベースからの埋め込みと多様性機能の組み合わせに依存し、再サンプリングされたトレーニングセットを使用する。
その結果,本手法は未知のモデルや領域にまたがって一般化可能であり,精度は0.91であることがわかった。
論文 参考訳(メタデータ) (2024-04-08T13:05:02Z) - KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual
and Multilingual Approaches for Detecting Online News Genre, Framing and
Persuasion Techniques [0.030458514384586396]
本稿では,SemEval2023タスク3におけるチームQUSTの参加について述べる。
モノリンガルモデルは、まず多数クラスのアンダーサンプリングを用いて評価される。
事前学習された多言語モデルは、クラス重みとサンプル重みの組み合わせで微調整される。
論文 参考訳(メタデータ) (2023-04-09T08:14:01Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - HFL at SemEval-2022 Task 8: A Linguistics-inspired Regression Model with
Data Augmentation for Multilingual News Similarity [16.454545004093735]
本稿では,SemEval-2022 Task 8: Multilingual News Article similarityについて述べる。
我々は,いくつかのタスク固有の戦略で訓練された言語モデルを提案した。
Pearson's correlation Coefficient of 0.818 on the official evaluation set。
論文 参考訳(メタデータ) (2022-04-11T03:08:37Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense [1.433758865948252]
本稿では,SemEval 2020 Task 4 - Commonsense Validation and ExplanationにおけるBUT-FITチームの作業について述べる。
サブタスクAとBでは、事前訓練された言語表現モデル(ALBERT)とデータ拡張に基づいている。
我々は、多言語モデルと機械翻訳データセットを用いて、別の言語であるチェコ語のタスクを解く実験を行った。
強い機械翻訳システムでは, 精度の低下を少なく抑えながら, 他言語で使用することができることを示す。
論文 参考訳(メタデータ) (2020-08-17T12:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。