Fugu-MT 論文翻訳(概要): SPADE: Systematic Prompt Framework for Automated Dialogue Expansion in Machine-Generated Text Detection

論文の概要: SPADE: Systematic Prompt Framework for Automated Dialogue Expansion in Machine-Generated Text Detection

arxiv url: http://arxiv.org/abs/2503.15044v1
Date: Wed, 19 Mar 2025 09:32:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.921009
Title: SPADE: Systematic Prompt Framework for Automated Dialogue Expansion in Machine-Generated Text Detection
Title（参考訳）: SPADE:機械生成テキスト検出における対話自動展開のための体系的プロンプトフレームワーク
Authors: Haoyi Li, Angela Yifei Yuan, Soyeon Caren Han, Christopher Leckie,
Abstract要約: 本稿では,構造化プロンプト手法を用いて,合成ユーザ対話生成のための5つの新しいデータ拡張フレームワークを提案する。提案手法は14種類の新しい対話データセットを生成し、7つのMGT検出モデルに対してベンチマークを行う。実世界のエージェントが将来の相手発話の知識を欠いていることを考慮し、オンライン対話検出をシミュレートし、チャット履歴の長さと検出精度の関係について検討する。
参考スコア（独自算出の注目度）: 15.626772502710867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing capability of large language models (LLMs) to generate synthetic content has heightened concerns about their misuse, driving the development of Machine-Generated Text (MGT) detection models. However, these detectors face significant challenges due to the lack of systematically generated, high-quality datasets for training. To address this issue, we propose five novel data augmentation frameworks for synthetic user dialogue generation through a structured prompting approach, reducing the costs associated with traditional data collection methods. Our proposed method yields 14 new dialogue datasets, which we benchmark against seven MGT detection models. The results demonstrate improved generalization performance when utilizing a mixed dataset produced by our proposed augmentation framework. Furthermore, considering that real-world agents lack knowledge of future opponent utterances, we simulate online dialogue detection and examine the relationship between chat history length and detection accuracy. We also benchmark online detection performance with limited chat history on our frameworks. Our open-source datasets can be downloaded from https://github.com/AngieYYF/SPADE-customer-service-dialogue.
Abstract（参考訳）: 大規模言語モデル(LLM)の合成コンテンツ生成能力の増大により、その誤用に対する懸念が高まっ、機械生成テキスト(MGT)検出モデルの開発が進められた。しかし、これらの検出器は、訓練のために体系的に生成された高品質なデータセットが欠如しているため、重大な課題に直面している。この問題に対処するために,構造化プロンプトアプローチにより合成ユーザ対話生成のための5つの新しいデータ拡張フレームワークを提案し,従来のデータ収集手法に関連するコストを削減した。提案手法は14種類の新しい対話データセットを生成し、7つのMGT検出モデルに対してベンチマークを行う。その結果,提案する拡張フレームワークによって生成された混合データセットを利用する場合の一般化性能が向上した。さらに,実世界のエージェントが将来の相手発話の知識を欠いていることを考慮し,オンライン対話検出をシミュレートし,チャット履歴長と検出精度の関係について検討する。また、フレームワーク上でのチャット履歴の制限によるオンライン検出のパフォーマンスもベンチマークします。オープンソースデータセットはhttps://github.com/AngieYYF/SPADE-customer-service-dialogueからダウンロードできます。

関連論文リスト

Speculative End-Turn Detector for Efficient Speech Chatbot Assistant [11.136112399898481]
エンドターン検出のための最初の公開データセットであるETDデータセットを紹介する。また,資源制約環境におけるリアルタイムETDを改善するために,効率と精度のバランスをとる新しい協調推論フレームワークであるSpeculativeETDを提案する。実験により,提案したSpeculativeETDは,必要な計算量を低く保ちながら,ETDの精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-03-30T13:34:23Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications [18.378069426713]
既存の研究は、対話システムの訓練に十分なスケールが欠けている一般またはニッチなデータセットによって制約されている。本稿では,高品質で文脈的にリッチな対話を生成可能な合成対話生成フレームワークであるDia Synthを紹介する。我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
論文参考訳（メタデータ） (2024-09-25T07:03:31Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文参考訳（メタデータ） (2023-09-19T08:27:09Z)
RECAP: Retrieval-Enhanced Context-Aware Prefix Encoder for Personalized Dialogue Response Generation [30.245143345565758]
パーソナライズされた応答生成のための検索強化手法を提案する。対話ドメインデータに基づいて訓練された階層型トランスフォーマーを設計し、パーソナライズされた検索を行うとともに、検索した情報をデコーダに効率的に融合するコンテキスト対応プレフィックスエンコーダを設計する。人的および自動メトリクスの組でモデルの性能を定量的に評価し、英語のReddit会話における最先端のベースラインよりも優れていると判断した。
論文参考訳（メタデータ） (2023-06-12T16:10:21Z)
Using Textual Interface to Align External Knowledge for End-to-End Task-Oriented Dialogue Systems [53.38517204698343]
本稿では,外部知識の整合化と冗長なプロセスの排除にテキストインタフェースを用いた新しいパラダイムを提案する。我々は、MultiWOZ-Remakeを用いて、MultiWOZデータベース用に構築されたインタラクティブテキストインタフェースを含む、我々のパラダイムを実演する。
論文参考訳（メタデータ） (2023-05-23T05:48:21Z)
Multi-grained Hypergraph Interest Modeling for Conversational Recommendation [75.65483522949857]
複雑な履歴データの下でユーザの興味を捉えるために, マルチグラデーション・ハイパーグラフ・インフォメーション・モデリング手法を提案する。提案手法では,まず,ユーザの過去の対話セッションをモデル化し,セッションベースハイパーグラフを作成するためにハイパーグラフ構造を用いる。さらに,2種類のハイパーグラフに対して多粒度ハイパーグラフの畳み込みを行い,拡張表現を用いて関心を意識したCRSを開発する。
論文参考訳（メタデータ） (2023-05-04T13:13:44Z)
DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文参考訳（メタデータ） (2022-04-27T16:18:15Z)
Quick Starting Dialog Systems with Paraphrase Generation [0.0]
本稿では,既存の事例からより多くのデータを人工的に生成することで,対話エージェント作成のコストと労力を削減する手法を提案する。提案手法は,人間の努力がほとんどないダイアログシステムを起動し,実際のエンドユーザーとの対話を可能にするのに十分なレベルの性能を実現する。
論文参考訳（メタデータ） (2022-04-06T02:35:59Z)
Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。 Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文参考訳（メタデータ） (2020-09-19T02:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。