論文の概要: SPADE: Structured Prompting Augmentation for Dialogue Enhancement in Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2503.15044v2
- Date: Tue, 01 Jul 2025 01:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 20:01:17.14701
- Title: SPADE: Structured Prompting Augmentation for Dialogue Enhancement in Machine-Generated Text Detection
- Title(参考訳): SPADE: 機械生成テキスト検出における対話強化のための構造化プロンプト拡張
- Authors: Haoyi Li, Angela Yifei Yuan, Soyeon Caren Han, Christopher Leckie,
- Abstract要約: 本研究では,プロンプトベースの正と負のサンプルを用いて,合成対話を検出するための構造化フレームワークSPADEを提案する。
提案手法は14種類の新しい対話データセットを生成し、8つのMGT検出モデルに対してベンチマークを行う。
- 参考スコア(独自算出の注目度): 15.626772502710867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing capability of large language models (LLMs) to generate synthetic content has heightened concerns about their misuse, driving the development of Machine-Generated Text (MGT) detection models. However, these detectors face significant challenges due to the lack of high-quality synthetic datasets for training. To address this issue, we propose SPADE, a structured framework for detecting synthetic dialogues using prompt-based positive and negative samples. Our proposed methods yield 14 new dialogue datasets, which we benchmark against eight MGT detection models. The results demonstrate improved generalization performance when utilizing a mixed dataset produced by proposed augmentation frameworks, offering a practical approach to enhancing LLM application security. Considering that real-world agents lack knowledge of future opponent utterances, we simulate online dialogue detection and examine the relationship between chat history length and detection accuracy. Our open-source datasets, code and prompts can be downloaded from https://github.com/AngieYYF/SPADE-customer-service-dialogue.
- Abstract(参考訳): 大規模言語モデル(LLM)の合成コンテンツ生成能力の増大により、その誤用に対する懸念が高まっ、機械生成テキスト(MGT)検出モデルの開発が進められた。
しかし、これらの検出器は、訓練のための高品質な合成データセットが欠如しているため、重大な課題に直面している。
この問題に対処するため,我々は,プロンプトベースの正と負のサンプルを用いて合成対話を検出するための構造化フレームワークであるSPADEを提案する。
提案手法は14種類の新しい対話データセットを生成し、8つのMGT検出モデルに対してベンチマークを行う。
提案した拡張フレームワークによって生成された混合データセットを利用することで,LLMアプリケーションのセキュリティ向上のための実用的なアプローチを実現することにより,一般化性能が向上した。
実世界のエージェントが将来の相手発話の知識を欠いていることを考慮し、オンライン対話検出をシミュレートし、チャット履歴の長さと検出精度の関係について検討する。
オープンソースデータセット、コード、プロンプトはhttps://github.com/AngieYYF/SPADE-customer-service-dialogueからダウンロードできます。
関連論文リスト
- Speculative End-Turn Detector for Efficient Speech Chatbot Assistant [11.136112399898481]
エンドターン検出のための最初の公開データセットであるETDデータセットを紹介する。
また,資源制約環境におけるリアルタイムETDを改善するために,効率と精度のバランスをとる新しい協調推論フレームワークであるSpeculativeETDを提案する。
実験により,提案したSpeculativeETDは,必要な計算量を低く保ちながら,ETDの精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-30T13:34:23Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications [18.378069426713]
既存の研究は、対話システムの訓練に十分なスケールが欠けている一般またはニッチなデータセットによって制約されている。
本稿では,高品質で文脈的にリッチな対話を生成可能な合成対話生成フレームワークであるDia Synthを紹介する。
我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
論文 参考訳(メタデータ) (2024-09-25T07:03:31Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - RECAP: Retrieval-Enhanced Context-Aware Prefix Encoder for Personalized
Dialogue Response Generation [30.245143345565758]
パーソナライズされた応答生成のための検索強化手法を提案する。
対話ドメインデータに基づいて訓練された階層型トランスフォーマーを設計し、パーソナライズされた検索を行うとともに、検索した情報をデコーダに効率的に融合するコンテキスト対応プレフィックスエンコーダを設計する。
人的および自動メトリクスの組でモデルの性能を定量的に評価し、英語のReddit会話における最先端のベースラインよりも優れていると判断した。
論文 参考訳(メタデータ) (2023-06-12T16:10:21Z) - Using Textual Interface to Align External Knowledge for End-to-End
Task-Oriented Dialogue Systems [53.38517204698343]
本稿では,外部知識の整合化と冗長なプロセスの排除にテキストインタフェースを用いた新しいパラダイムを提案する。
我々は、MultiWOZ-Remakeを用いて、MultiWOZデータベース用に構築されたインタラクティブテキストインタフェースを含む、我々のパラダイムを実演する。
論文 参考訳(メタデータ) (2023-05-23T05:48:21Z) - Multi-grained Hypergraph Interest Modeling for Conversational
Recommendation [75.65483522949857]
複雑な履歴データの下でユーザの興味を捉えるために, マルチグラデーション・ハイパーグラフ・インフォメーション・モデリング手法を提案する。
提案手法では,まず,ユーザの過去の対話セッションをモデル化し,セッションベースハイパーグラフを作成するためにハイパーグラフ構造を用いる。
さらに,2種類のハイパーグラフに対して多粒度ハイパーグラフの畳み込みを行い,拡張表現を用いて関心を意識したCRSを開発する。
論文 参考訳(メタデータ) (2023-05-04T13:13:44Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - Quick Starting Dialog Systems with Paraphrase Generation [0.0]
本稿では,既存の事例からより多くのデータを人工的に生成することで,対話エージェント作成のコストと労力を削減する手法を提案する。
提案手法は,人間の努力がほとんどないダイアログシステムを起動し,実際のエンドユーザーとの対話を可能にするのに十分なレベルの性能を実現する。
論文 参考訳(メタデータ) (2022-04-06T02:35:59Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。