論文の概要: PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text?
- arxiv url: http://arxiv.org/abs/2404.05483v1
- Date: Mon, 8 Apr 2024 13:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:32:03.674456
- Title: PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text?
- Title(参考訳): PetKaz at SemEval-2024 Task 8: Linguistics can Capture the specifics of LLM- generated Text?
- Authors: Kseniia Petukhova, Roman Kazakov, Ekaterina Kochmar,
- Abstract要約: 我々はSemEval-2024タスク8「マルチジェネレータ、マルチドメイン、ブラックボックスマシン生成テキスト検出」を提出する。
我々のアプローチは、RoBERTaベースからの埋め込みと多様性機能の組み合わせに依存し、再サンプリングされたトレーニングセットを使用する。
その結果,本手法は未知のモデルや領域にまたがって一般化可能であり,精度は0.91であることがわかった。
- 参考スコア(独自算出の注目度): 4.463184061618504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our submission to the SemEval-2024 Task 8 "Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection", focusing on the detection of machine-generated texts (MGTs) in English. Specifically, our approach relies on combining embeddings from the RoBERTa-base with diversity features and uses a resampled training set. We score 12th from 124 in the ranking for Subtask A (monolingual track), and our results show that our approach is generalizable across unseen models and domains, achieving an accuracy of 0.91.
- Abstract(参考訳): 本稿では,SemEval-2024タスク8「マルチジェネレータ,マルチドメイン,多言語ブラックボックスマシン生成テキスト検出」に提案する。
具体的には、RoBERTaベースからの埋め込みと多様性機能を組み合わせることに依存し、再サンプリングされたトレーニングセットを使用する。
我々はSubtask A (monolingual track) のランキングで124位から12位となり、我々のアプローチは未知のモデルや領域にまたがって一般化可能であり、精度は0.91であることを示した。
関連論文リスト
- Sharif-MGTD at SemEval-2024 Task 8: A Transformer-Based Approach to Detect Machine Generated Text [2.2039952888743253]
MGTは自然言語処理において重要な研究領域となっている。
本研究では,強力なニューラルアーキテクチャであるRoBERTaベーストランスを微調整し,MGT検出に対処する効果について検討する。
提案システムでは,テストデータセットの78.9%の精度を達成し,参加者の57位に位置づけた。
論文 参考訳(メタデータ) (2024-07-16T14:33:01Z) - SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - TrustAI at SemEval-2024 Task 8: A Comprehensive Analysis of Multi-domain Machine Generated Text Detection Techniques [2.149586323955579]
大規模言語モデル(LLM)は、幅広いユーザクエリにまたがる流動的なコンテンツを生成する。
この能力は、誤情報や個人情報の漏洩に関する懸念を引き起こしている。
本稿では,SemEval2024 Task8に対する提案手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T10:09:03Z) - KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - Team QUST at SemEval-2024 Task 8: A Comprehensive Study of Monolingual
and Multilingual Approaches for Detecting AI-generated Text [0.1499944454332829]
本稿では,タスク8SemEval 2024におけるチームQUSTの参加について述べる。
最初にデータセット上でデータ拡張とクリーニングを行い、モデルのトレーニング効率と精度を高めた。
単言語課題では,従来のディープラーニング手法,MPU,ファインチューニング,アダプタ,アンサンブル手法を評価した。
論文 参考訳(メタデータ) (2024-02-19T08:22:51Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - mCPT at SemEval-2023 Task 3: Multilingual Label-Aware Contrastive
Pre-Training of Transformers for Few- and Zero-shot Framing Detection [63.540146992962526]
本稿では,ゼロショットスパニッシュフレーミング検出タスクの勝利システムについて述べる。
提案手法では,多言語変換器をベースとした事前学習手法を採用している。
本システムの記述に加えて, プレトレーニングがフレーミング検出にどのように役立つかを示すために, 埋め込み空間解析およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-03-17T11:33:06Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。