論文の概要: Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Engineering
- arxiv url: http://arxiv.org/abs/2512.04396v1
- Date: Thu, 04 Dec 2025 02:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.962675
- Title: Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Engineering
- Title(参考訳): 古典的機械学習と特徴工学を用いたRedditのSarcasm検出
- Authors: Subrata Karmaker,
- Abstract要約: サルカズムはオンラインでの議論でよく見られるが、機械が識別することが難しいのは、意図された意味がしばしばリテラルの言葉に矛盾するためである。
本研究では,古典的な機械学習手法と明示的な特徴工学のみを用いた皮肉検出について研究する。
4つのモデルが評価されている。ロジスティック回帰、線形SVM、複数項のネイブベイズ、ランダムフォレスト。ネイブベイズとロジスティック回帰は最強であり、サーカディックコメントのF1スコアは約0.57を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm is common in online discussions, yet difficult for machines to identify because the intended meaning often contradicts the literal wording. In this work, I study sarcasm detection using only classical machine learning methods and explicit feature engineering, without relying on neural networks or context from parent comments. Using a 100,000-comment subsample of the Self-Annotated Reddit Corpus (SARC 2.0), I combine word-level and character-level TF-IDF features with simple stylistic indicators. Four models are evaluated: logistic regression, a linear SVM, multinomial Naive Bayes, and a random forest. Naive Bayes and logistic regression perform the strongest, achieving F1-scores around 0.57 for sarcastic comments. Although the lack of conversational context limits performance, the results offer a clear and reproducible baseline for sarcasm detection using lightweight and interpretable methods.
- Abstract(参考訳): サルカズムはオンラインでの議論でよく見られるが、機械が識別することが難しいのは、意図された意味がしばしばリテラルの言葉に矛盾するためである。
本研究では,従来の機械学習手法と明示的な特徴工学のみを用いた皮肉検出について,ニューラルネットワークや親コメントからのコンテキストに頼ることなく検討する。
Self-Annotated Reddit Corpus (SARC 2.0)の10万行のサブサンプルを使って、単語レベルと文字レベルのTF-IDF機能と単純なスタイリスティックな指標を組み合わせています。
4つのモデルが評価され、ロジスティック回帰、線形SVM、多項ネーブベイズ、ランダム森林である。
ナイーブ・ベイズとロジスティック・レグレッションは最強で、皮肉なコメントでF1スコアは約0.57を記録した。
会話コンテキストの欠如は性能を制限しているが、結果は軽量で解釈可能な手法を用いてサルカズム検出のための明瞭で再現可能なベースラインを提供する。
関連論文リスト
- AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - An Evaluation of State-of-the-Art Large Language Models for Sarcasm
Detection [0.0]
サルカズム(英: Sarcasm)とは、彼が言いたいことの逆を意味する人による言葉の使用である。
NLPの最近の革新により、サルカズムを検出する可能性がさらに高まった。
論文 参考訳(メタデータ) (2023-10-07T14:45:43Z) - Nice perfume. How long did you marinate in it? Multimodal Sarcasm
Explanation [18.23523076710257]
サルカスムは侵入する言語現象であり、非常に説明が難しい。
マルチモーダル設定では、サルカズムはテキストと視覚的実体の間の矛盾を通して伝達される。
マルチモーダルサルカスム説明(MuSE)という新しい問題を提案する。
論文 参考訳(メタデータ) (2021-12-09T12:49:01Z) - Does Commonsense help in detecting Sarcasm? [20.78285964841612]
サーカスム検出は、製品レビューにおける感情識別、ユーザフィードバック、オンラインフォーラムなど、いくつかのNLPタスクにおいて重要である。
本稿では,コモンセンスの知識を取り入れることで,サルカズムの検出に有効かどうかを考察する。
3つのサルカズム検出データセットを用いた実験により,本手法がベースラインモデルより優れていないことが示された。
論文 参考訳(メタデータ) (2021-09-17T15:07:38Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Interpretable Multi-Head Self-Attention model for Sarcasm Detection in
social media [0.0]
sarcastic expressionの曖昧さは、sarcasmの発見を非常に困難にしている。
マルチヘッドセルフアテンションとゲートリカレントユニットを用いた解釈可能なディープラーニングモデルを開発する。
本稿では,複数のデータセットで最新の結果を得る手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-14T21:39:35Z) - Closed Loop Neural-Symbolic Learning via Integrating Neural Perception,
Grammar Parsing, and Symbolic Reasoning [134.77207192945053]
従来の手法は強化学習アプローチを用いてニューラルシンボリックモデルを学ぶ。
我々は,脳神経知覚と記号的推論を橋渡しする前に,textbfgrammarモデルをテキストシンボリックとして導入する。
本稿では,トップダウンのヒューマンライクな学習手順を模倣して誤りを伝播する新しいtextbfback-searchアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-11T17:42:49Z) - Sarcasm Detection using Context Separators in Online Discourse [3.655021726150369]
サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な形態の言語である。
本研究では,RoBERTa_largeを用いて2つのデータセットの皮肉を検出する。
また,文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。
論文 参考訳(メタデータ) (2020-06-01T10:52:35Z) - $R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with
Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。
本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文 参考訳(メタデータ) (2020-04-28T02:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。