論文の概要: Click it or Leave it: Detecting and Spoiling Clickbait with Informativeness Measures and Large Language Models
- arxiv url: http://arxiv.org/abs/2602.18171v1
- Date: Fri, 20 Feb 2026 12:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.317613
- Title: Click it or Leave it: Detecting and Spoiling Clickbait with Informativeness Measures and Large Language Models
- Title(参考訳): クリックするか、去るか:インフォーマルネス対策と大規模言語モデルによるクリックベイトの検出とスポイリング
- Authors: Wojciech Michaluk, Tymoteusz Urban, Mateusz Kubita, Soveatin Kuntur, Anna Wroblewska,
- Abstract要約: 本稿では,トランスフォーマーをベースとしたテキスト埋め込みと,言語的に動機付けられた情報化機能を組み合わせたクリックベイト検出手法を提案する。
当社のベストパフォーマンスモデルであるXGBoostは15の明示的な特徴を組み込んだ組み込みで、F1スコアの91%を実現しています。
提案する特徴集合は,2人称代名詞,助詞,数字,注意指向句読点などの有能な言語的手がかりを強調することにより,解釈可能性を高める。
- 参考スコア(独自算出の注目度): 1.5658704610960574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clickbait headlines degrade the quality of online information and undermine user trust. We present a hybrid approach to clickbait detection that combines transformer-based text embeddings with linguistically motivated informativeness features. Using natural language processing techniques, we evaluate classical vectorizers, word embedding baselines, and large language model embeddings paired with tree-based classifiers. Our best-performing model, XGBoost over embeddings augmented with 15 explicit features, achieves an F1-score of 91\%, outperforming TF-IDF, Word2Vec, GloVe, LLM prompt based classification, and feature-only baselines. The proposed feature set enhances interpretability by highlighting salient linguistic cues such as second-person pronouns, superlatives, numerals, and attention-oriented punctuation, enabling transparent and well-calibrated clickbait predictions. We release code and trained models to support reproducible research.
- Abstract(参考訳): Clickbaitの見出しは、オンライン情報の質を低下させ、ユーザーの信頼を損なう。
本稿では,トランスフォーマーをベースとしたテキスト埋め込みと,言語的に動機付けられた情報化機能を組み合わせたクリックベイト検出手法を提案する。
自然言語処理技術を用いて、古典的ベクトル化器、単語埋め込みベースライン、木に基づく分類器と組み合わせた大規模言語モデル埋め込みを評価する。
当社のベストパフォーマンスモデルであるXGBoostは15の明示的な特徴を付加した埋め込みで、F1スコア91\%を実現し、TF-IDF、Word2Vec、GloVe、LLMプロンプトベースの分類、フィーチャのみのベースラインを上回ります。
提案する特徴セットは,2人称代名詞,助詞,数字,注意指向句読点などの有能な言語的手がかりを強調し,透明で校正されたクリックベイト予測を可能にすることによって,解釈可能性を高める。
再現可能な研究をサポートするために、コードとトレーニングされたモデルをリリースします。
関連論文リスト
- An Interpretable Benchmark for Clickbait Detection and Tactic Attribution [37.86790434630698]
クリックベイトの見出しの拡散は、デジタルメディアにおける情報の信頼性とユーザ信頼に重大な課題をもたらす。
本稿では、クリックベイトタイトルを識別するだけでなく、特定の言語操作戦略に起因した、説明可能なクリックベイト検出モデルを提案する。
本稿では,検出と戦術属性を含む自動クリックベイト分析のための2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-13T18:26:49Z) - SKDU at De-Factify 4.0: Natural Language Features for AI-Generated Text-Detection [2.006175707670159]
NELAは、人書きテキストとAI生成テキストの区別において、RAIDARの機能を著しく上回っている。
XGBoostは最も効果的で、リッチな機能セットを活用して高い精度と一般化を実現した。
論文 参考訳(メタデータ) (2025-03-28T11:25:05Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels? [41.56585313495218]
視覚言語モデルは、数発のプロンプトチューニングによって、新しい分類タスクに適応することができる。
本稿では,プロンプトチューニングパラダイムの堅牢性に寄与する主な理由について考察する。
ノイズの多いCLIPからのゼロショット予測は、独自のプロンプトをチューニングするために使用できることを示す。
論文 参考訳(メタデータ) (2023-07-22T04:20:30Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text
Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。
これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文 参考訳(メタデータ) (2021-01-30T15:18:35Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。