論文の概要: Artificial Text Detection with Multiple Training Strategies
- arxiv url: http://arxiv.org/abs/2212.05194v1
- Date: Sat, 10 Dec 2022 03:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 14:59:36.092042
- Title: Artificial Text Detection with Multiple Training Strategies
- Title(参考訳): 複数のトレーニング戦略を用いた人工テキスト検出
- Authors: Bin Li, Yixuan Weng, Qiya Song and Hanjun Deng
- Abstract要約: 本稿では,対話共有タスク2022(RuATD 2022)におけるロシア語人工テキスト検出手法を提案する。
この共有タスクのための複数のトレーニング戦略を備えたDeBERTa事前学習言語モデルを導入する。
- 参考スコア(独自算出の注目度): 5.193281963834951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the deep learning rapidly promote, the artificial texts created by
generative models are commonly used in news and social media. However, such
models can be abused to generate product reviews, fake news, and even fake
political content. The paper proposes a solution for the Russian Artificial
Text Detection in the Dialogue shared task 2022 (RuATD 2022) to distinguish
which model within the list is used to generate this text. We introduce the
DeBERTa pre-trained language model with multiple training strategies for this
shared task. Extensive experiments conducted on the RuATD dataset validate the
effectiveness of our proposed method. Moreover, our submission ranked second
place in the evaluation phase for RuATD 2022 (Multi-Class).
- Abstract(参考訳): ディープラーニングが急速に普及するにつれて、生成モデルによって生成された人工テキストは、ニュースやソーシャルメディアで一般的に使われている。
しかし、そのようなモデルは、製品レビュー、偽ニュース、さらには偽の政治コンテンツを生成するために悪用される可能性がある。
本稿では,対話共有タスク2022(RuATD 2022)におけるロシア語人工テキスト検出手法を提案する。
この共有タスクのための複数のトレーニング戦略を備えたDeBERTa事前学習言語モデルを導入する。
RuATDデータセットを用いた大規模な実験により,提案手法の有効性が検証された。
また,RuATD 2022 (Multi-Class) の評価フェーズでは2位にランクインした。
関連論文リスト
- MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Studying the impacts of pre-training using ChatGPT-generated text on
downstream tasks [0.0]
本研究の目的は,言語モデルの事前学習における人工テキストの影響を検討することである。
我々は、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、同じ記事をトレーニングに用いたChatGPTの比較分析を行った。
事前学習における人工テキストの利用は、下流作業におけるモデルの性能や性別の偏りに有意な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-09-02T12:56:15Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - Collocation2Text: Controllable Text Generation from Guide Phrases in
Russian [0.0]
Collocation2Textはロシア語で自動制御可能なテキスト生成のためのプラグイン・アンド・プレイ方式である。
この手法は、自己回帰言語ruGPT-3モデルと自己符号化言語ruRoBERTaモデルという2つの相互作用モデルに基づいている。
提案手法を用いてニュース記事を生成する実験は,自動生成された流布文に対して有効性を示した。
論文 参考訳(メタデータ) (2022-06-18T17:10:08Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets [6.18447297698017]
本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
論文 参考訳(メタデータ) (2021-01-22T21:50:38Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。