Fugu-MT 論文翻訳(概要): Artificial Text Detection with Multiple Training Strategies

論文の概要: Artificial Text Detection with Multiple Training Strategies

arxiv url: http://arxiv.org/abs/2212.05194v1
Date: Sat, 10 Dec 2022 03:57:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 14:59:36.092042
Title: Artificial Text Detection with Multiple Training Strategies
Title（参考訳）: 複数のトレーニング戦略を用いた人工テキスト検出
Authors: Bin Li, Yixuan Weng, Qiya Song and Hanjun Deng
Abstract要約: 本稿では,対話共有タスク2022(RuATD 2022)におけるロシア語人工テキスト検出手法を提案する。この共有タスクのための複数のトレーニング戦略を備えたDeBERTa事前学習言語モデルを導入する。
参考スコア（独自算出の注目度）: 5.193281963834951
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the deep learning rapidly promote, the artificial texts created by generative models are commonly used in news and social media. However, such models can be abused to generate product reviews, fake news, and even fake political content. The paper proposes a solution for the Russian Artificial Text Detection in the Dialogue shared task 2022 (RuATD 2022) to distinguish which model within the list is used to generate this text. We introduce the DeBERTa pre-trained language model with multiple training strategies for this shared task. Extensive experiments conducted on the RuATD dataset validate the effectiveness of our proposed method. Moreover, our submission ranked second place in the evaluation phase for RuATD 2022 (Multi-Class).
Abstract（参考訳）: ディープラーニングが急速に普及するにつれて、生成モデルによって生成された人工テキストは、ニュースやソーシャルメディアで一般的に使われている。しかし、そのようなモデルは、製品レビュー、偽ニュース、さらには偽の政治コンテンツを生成するために悪用される可能性がある。本稿では,対話共有タスク2022(RuATD 2022)におけるロシア語人工テキスト検出手法を提案する。この共有タスクのための複数のトレーニング戦略を備えたDeBERTa事前学習言語モデルを導入する。 RuATDデータセットを用いた大規模な実験により,提案手法の有効性が検証された。また,RuATD 2022 (Multi-Class) の評価フェーズでは2位にランクインした。

関連論文リスト

Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。コード、事前トレーニングされたウェイト、デモがリリースされる。
論文参考訳（メタデータ） (2025-10-07T08:14:45Z)
DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。 DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。我々の手法はテキストエンコーダと互換性がある。
論文参考訳（メタデータ） (2024-10-28T12:34:49Z)
Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text [7.959800630494841]
SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
論文参考訳（メタデータ） (2024-07-03T10:22:23Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。 mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文参考訳（メタデータ） (2024-03-12T03:35:17Z)
Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。また,人間と機械作家の区別にも有効であることがわかった。
論文参考訳（メタデータ） (2024-01-12T17:26:51Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
Collocation2Text: Controllable Text Generation from Guide Phrases in Russian [0.0]
Collocation2Textはロシア語で自動制御可能なテキスト生成のためのプラグイン・アンド・プレイ方式である。この手法は、自己回帰言語ruGPT-3モデルと自己符号化言語ruRoBERTaモデルという2つの相互作用モデルに基づいている。提案手法を用いてニュース記事を生成する実験は,自動生成された流布文に対して有効性を示した。
論文参考訳（メタデータ） (2022-06-18T17:10:08Z)
Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文参考訳（メタデータ） (2021-05-19T10:37:44Z)
BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets [6.18447297698017]
本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。新しいトランスファーラーニングモデルは、最大98%の精度を得ました。私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
論文参考訳（メタデータ） (2021-01-22T21:50:38Z)
Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文参考訳（メタデータ） (2020-10-12T19:42:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。