論文の概要: A GAN and LLM-Driven Data Augmentation Framework for Dynamic Linguistic Pattern Modeling in Chinese Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2604.08381v1
- Date: Thu, 09 Apr 2026 15:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.004877
- Title: A GAN and LLM-Driven Data Augmentation Framework for Dynamic Linguistic Pattern Modeling in Chinese Sarcasm Detection
- Title(参考訳): 中国語サーカスム検出における動的言語パターンモデリングのためのGANおよびLLM駆動データ拡張フレームワーク
- Authors: Wenxian Wang, Xiaohu Luo, Junfeng Hao, Xiaoming Gu, Xingshu Chen, Zhu Wang, Haizhou Wang,
- Abstract要約: サルカズム(Sarcasm)は、誇張、皮肉、比較を通じて、特定の個人や状況に対する批判や特徴を強調する修辞的な装置である。
既存の中国のサルカズム検出法は、限られたデータセットと高い建設コストで制約されている。
本稿では,GAN(Generative Adversarial Network)とLLM(Large Language Model)によるデータ拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.763948817900436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm is a rhetorical device that expresses criticism or emphasizes characteristics of certain individuals or situations through exaggeration, irony, or comparison. Existing methods for Chinese sarcasm detection are constrained by limited datasets and high construction costs, and they mainly focus on textual features, overlooking user-specific linguistic patterns that shape how opinions and emotions are expressed. This paper proposes a Generative Adversarial Network (GAN) and Large Language Model (LLM)-driven data augmentation framework to dynamically model users' linguistic patterns for enhanced Chinese sarcasm detection. First, we collect raw data from various topics on Sina Weibo. Then, we train a GAN on these data and apply a GPT-3.5 based data augmentation technique to synthesize an extended sarcastic comment dataset, named SinaSarc. This dataset contains target comments, contextual information, and user historical behavior. Finally, we extend the BERT architecture to incorporate multi-dimensional information, particularly user historical behavior, enabling the model to capture dynamic linguistic patterns and uncover implicit sarcastic cues in comments. Experimental results demonstrate the effectiveness of our proposed method. Specifically, our model achieves the highest F1-scores on both the non-sarcastic and sarcastic categories, with values of 0.9138 and 0.9151 respectively, which outperforms all existing state-of-the-art (SOTA) approaches. This study presents a novel framework for dynamically modeling users' long-term linguistic patterns in Chinese sarcasm detection, contributing to both dataset construction and methodological advancement in this field.
- Abstract(参考訳): サルカズム(Sarcasm)は、誇張、皮肉、比較を通じて、特定の個人や状況に対する批判や特徴を強調する修辞的な装置である。
既存の中国の皮肉検出法は、限られたデータセットと高い建設コストで制約されており、主にテキストの特徴に焦点を当てており、意見や感情の表現方法を形成するユーザ固有の言語パターンを見下ろしている。
本稿では, ユーザによる言語パターンを動的にモデル化するためのGANおよびLLM駆動型データ拡張フレームワークを提案する。
まず,Sina Weiboのさまざまなトピックから生データを収集する。
そして、これらのデータに基づいてGANをトレーニングし、GPT-3.5に基づくデータ拡張手法を適用して、SinaSarcという拡張されたサーカシックコメントデータセットを合成する。
このデータセットには、ターゲットコメント、コンテキスト情報、ユーザの過去の振る舞いが含まれている。
最後に、BERTアーキテクチャを拡張して、多次元情報、特にユーザ履歴の振る舞いを取り入れ、動的言語パターンをキャプチャし、コメントの中に暗黙的なサーカシックな手がかりを発見できるようにする。
実験の結果,提案手法の有効性が示された。
具体的には,非サーカストとサーカストの両方で高いF1スコアが得られ,それぞれ0.9138と0.9151の値が得られ,既存のSOTAのアプローチよりも優れていた。
本研究は,中国のサルカズム検出における利用者の長期言語パターンを動的にモデル化する新しい枠組みを提案し,この分野でのデータセット構築と方法論の進歩に寄与する。
関連論文リスト
- Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of English [8.823927892310238]
BESSTIEは、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3種類の英語に対する感情と皮肉の分類のベンチマークである。
Google PlacesレビューのロケーションベースとRedditコメントのトピックベースフィルタリングの2つの方法を用いて,これらの言語品種のデータセットを収集した。
言語変異のネイティブ話者は、感情ラベルと皮肉ラベルでデータセットを手動で注釈付けする。
論文 参考訳(メタデータ) (2024-12-06T02:34:40Z) - Improving Pinterest Search Relevance Using Large Language Models [15.24121687428178]
我々はLarge Language Models (LLM) を検索関連モデルに統合する。
提案手法では,生成的視覚言語モデルから抽出したキャプションを含むコンテンツ表現とともに検索クエリを使用する。
LLMをベースとしたモデルからリアルタイム可観測モデルアーキテクチャと特徴を抽出する。
論文 参考訳(メタデータ) (2024-10-22T16:29:33Z) - Dissecting vocabulary biases datasets through statistical testing and
automated data augmentation for artifact mitigation in Natural Language
Inference [3.154631846975021]
我々は、データセットのアーティファクトを調査し、これらの問題に対処するための戦略を開発することに重点を置いている。
文字レベルから単語レベルにまたがる複数の自動データ拡張戦略を提案する。
実験により,提案手法はモデル精度を効果的に向上し,バイアスを最大0.66%,バイアスを1.14%低減することを示した。
論文 参考訳(メタデータ) (2023-12-14T08:46:26Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Combining Context-Free and Contextualized Representations for Arabic
Sarcasm Detection and Sentiment Identification [0.0]
本論文では,SPPU-AASM チームによる WANLP ArSarcasm shared-task 2021 の提出を示唆する。
提案方式は, 皮肉および感情検出タスクに対して, F1-sarcastic score の 0.62 と F-PN score の 0.715 をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-03-09T19:39:43Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Augmenting Data for Sarcasm Detection with Unlabeled Conversation
Context [55.898436183096614]
本稿では,会話コンテキストを利用して意味のあるサンプルを生成する新しいデータ拡張手法であるCRA(Contextual Response Augmentation)を提案する。
具体的には,提案手法を訓練し,FigLang2020の皮肉検出タスクに参加し,RedditとTwitterのデータセットで最高のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2020-06-11T09:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。