論文の概要: Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models
- arxiv url: http://arxiv.org/abs/2411.00411v1
- Date: Fri, 01 Nov 2024 07:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:46.175738
- Title: Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models
- Title(参考訳): エンベディングフュージョンによるオーサシップ属性の促進:マスクおよびエンコーダ・デコーダ言語モデルを用いた新しいアプローチ
- Authors: Arjun Ramesh Kaushik, Sunil Rufus R P, Nalini Ratha,
- Abstract要約: 本稿では,AI生成テキストと人間認証テキストを区別するために,事前学習言語モデルからのテキスト埋め込みを用いた新しいフレームワークを提案する。
提案手法では, Embedding Fusion を用いて複数の言語モデルからの意味情報を統合し,その補完的強みを利用して性能を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The increasing prevalence of AI-generated content alongside human-written text underscores the need for reliable discrimination methods. To address this challenge, we propose a novel framework with textual embeddings from Pre-trained Language Models (PLMs) to distinguish AI-generated and human-authored text. Our approach utilizes Embedding Fusion to integrate semantic information from multiple Language Models, harnessing their complementary strengths to enhance performance. Through extensive evaluation across publicly available diverse datasets, our proposed approach demonstrates strong performance, achieving classification accuracy greater than 96% and a Matthews Correlation Coefficient (MCC) greater than 0.93. This evaluation is conducted on a balanced dataset of texts generated from five well-known Large Language Models (LLMs), highlighting the effectiveness and robustness of our novel methodology.
- Abstract(参考訳): AI生成コンテンツの人文テキストによる普及は、信頼性の高い識別方法の必要性を浮き彫りにしている。
この課題に対処するため,我々は,AI生成テキストと人間によるテキストを識別するための,事前学習言語モデル(PLM)からのテキスト埋め込みを用いた新しいフレームワークを提案する。
提案手法では, Embedding Fusion を用いて複数の言語モデルからの意味情報を統合し,その補完的強みを利用して性能を向上させる。
提案手法は,公開可能な多種多様なデータセットに対する広範な評価を通じて,96%以上の分類精度と0.93以上のマシューズ相関係数(MCC)を達成し,高い性能を示す。
この評価は,5つの有名なLarge Language Models (LLMs) から得られたテキストのバランスの取れたデータセットを用いて行われ,本手法の有効性とロバスト性を強調した。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Enhancing Text Authenticity: A Novel Hybrid Approach for AI-Generated Text Detection [8.149808049643344]
本稿では,TF-IDF技術と高度な機械学習モデルを組み合わせた新しいハイブリッド手法を提案する。
提案手法は既存手法と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-06-01T10:21:54Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。
ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文 参考訳(メタデータ) (2024-02-17T02:25:57Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - TPPoet: Transformer-Based Persian Poem Generation using Minimal Data and
Advanced Decoding Techniques [0.9831489366502302]
我々は,ペルシャの古典詩生成モデルを,事前学習のない特別なデータセット上でトランスフォーマーアーキテクチャを用いて訓練する。
生成された詩のコヒーレンスと意味性を高めるための新しい復号法を提案する。
トレーニング手法と提案手法の結果は,総合的な自動評価と人的評価によって評価される。
論文 参考訳(メタデータ) (2023-12-04T18:52:26Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。