論文の概要: Clickbait Classification and Spoiling Using Natural Language Processing
- arxiv url: http://arxiv.org/abs/2306.14907v1
- Date: Fri, 16 Jun 2023 01:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-02 13:27:04.096247
- Title: Clickbait Classification and Spoiling Using Natural Language Processing
- Title(参考訳): 自然言語処理を用いたクリックベイト分類とスポイリング
- Authors: Adhitya Thirumala and Elisa Ferracane
- Abstract要約: クリックベイトを3つのタイプのうちの1つ(タスク1)に分類し、クリックベイトを台無しにする(タスク2)という2つのタスクに取り組む。
タスク1では、最終スポイラー型を決定するために2つのバイナリ分類器を提案する。
タスク2では,質問応答モデルを用いてスポイラーのテキストのスパンを識別し,大言語モデル(LLM)を用いてスポイラーを生成する。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clickbait is the practice of engineering titles to incentivize readers to
click through to articles. Such titles with sensationalized language reveal as
little information as possible. Occasionally, clickbait will be intentionally
misleading, so natural language processing (NLP) can scan the article and
answer the question posed by the clickbait title, or spoil it. We tackle two
tasks: classifying the clickbait into one of 3 types (Task 1), and spoiling the
clickbait (Task 2). For Task 1, we propose two binary classifiers to determine
the final spoiler type. For Task 2, we experiment with two approaches: using a
question-answering model to identify the span of text of the spoiler, and using
a large language model (LLM) to generate the spoiler. Because the spoiler is
contained in the article, we frame the second task as a question-answering
approach for identifying the starting and ending positions of the spoiler. We
created models for Task 1 that were better than the baselines proposed by the
dataset authors and engineered prompts for Task 2 that did not perform as well
as the baselines proposed by the dataset authors due to the evaluation metric
performing worse when the output text is from a generative model as opposed to
an extractive model.
- Abstract(参考訳): clickbaitは、読者に記事をクリックするようインセンティブを与えるエンジニアリングタイトルのプラクティスだ。
センセーショナルな言語を持つタイトルは、できるだけ情報が少ない。
時々、clickbaitは意図的に誤解を招くので、自然言語処理(nlp)は記事をスキャンしてclickbaitタイトルの質問に答えることができる。
クリックベイトを3つのタイプのうちの1つ(タスク1)に分類し、クリックベイトを台無しにする(タスク2)。
タスク1では、最終スポイラー型を決定するために2つのバイナリ分類器を提案する。
タスク2では、スポイラーのテキストのスパンを識別するために質問応答モデルを使用し、スポイラーを生成するために大きな言語モデル(llm)を使用します。
スポイラーは記事に含まれるので、第2のタスクはスポイラーの開始位置と終了位置を特定するための質問応答アプローチとして構成する。
我々は,データセット作成者が提案するベースラインよりも優れたタスク1のモデルを作成し,抽出モデルとは対照的に出力テキストが生成モデルである場合の評価基準が悪化するため,実行しないタスク2のプロンプトとデータセット作成者が提案するベースラインのプロンプトを考案した。
関連論文リスト
- Generating clickbait spoilers with an ensemble of large language models [2.07180164747172]
クリックベイトスポイラー生成のための微調整された大言語モデルのアンサンブルを提案する。
提案手法はフレーズスポイラーや文節スポイラーに限らず, テキストの非連続部分を参照するマルチパートスポイラーを生成することができる。
実験により,提案したアンサンブルモデルがBLEU, METEOR, BERTScoreの基準値よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-05-25T15:49:08Z) - Mitigating Clickbait: An Approach to Spoiler Generation Using Multitask Learning [6.404122934568859]
本研究では,スポイラーを簡潔なテキスト応答として検出・分類・生成する新技術である「クリックベイトスポイリング」を紹介する。
マルチタスク学習フレームワークを活用することで,モデルの一般化能力は大幅に向上する。
本研究は,クリックベイト問題に対処するための高度なテキスト処理技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-05-07T13:09:25Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection
on Bangla Clickbait Dataset [0.6008132390640294]
15,056個のラベル付きニュース記事と65,406個のラベル付きニュース記事を含むバングラクリックベイト検出データセットを構築した。
各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。
半監視世代適応ネットワーク(SS GANs)を用いて,事前学習したバングラ変圧器モデルを逆向きに微調整する。
論文 参考訳(メタデータ) (2023-11-10T17:38:46Z) - Low-Resource Clickbait Spoiling for Indonesian via Question Answering [14.670767459273307]
クリックベイト腐敗は、クリックベイト投稿によって引き起こされる好奇心を満たすための短いテキストを生成することを目的としている。
新しく導入されたタスクなので、データセットは今のところ英語でしか利用できない。
私たちのコントリビューションには、インドネシアにおける手作業によるクリックベイト腐敗コーパスの構築が含まれています。
論文 参考訳(メタデータ) (2023-10-12T07:17:17Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Clickbait Spoiling via Question Answering and Passage Retrieval [25.257288432595477]
我々はクリックベイト腐敗の課題を紹介し,研究する。
クリックベイトはウェブページへのリンクを投稿し、好奇心を喚起してそのコンテンツを宣伝する。
我々の貢献は、必要なスポイラーの種類を分類し、適切なスポイラーを生成するアプローチである。
論文 参考訳(メタデータ) (2022-03-19T09:40:33Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Hooks in the Headline: Learning to Generate Headlines with Controlled
Styles [69.30101340243375]
我々は,見出しを3つのスタイルで強化する新しいタスク,Styllistic Headline Generation (SHG)を提案する。
TitleStylistは、要約と再構築タスクをマルチタスクフレームワークに組み合わせることで、スタイル固有の見出しを生成する。
我々のモデルが生成したアトラクションスコアは、最先端の要約モデルの9.68%を超え、人間による参照よりも優れています。
論文 参考訳(メタデータ) (2020-04-04T17:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。