論文の概要: Large Language Models for Propaganda Span Annotation
- arxiv url: http://arxiv.org/abs/2311.09812v2
- Date: Sun, 14 Jan 2024 06:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 00:48:41.445134
- Title: Large Language Models for Propaganda Span Annotation
- Title(参考訳): プロパガンダスパンアノテーションのための大規模言語モデル
- Authors: Maram Hasanain, Fatema Ahmed, Firoj Alam
- Abstract要約: GPT-4のような大規模言語モデル(LLM)が効果的にタスクを実行できるかどうかを検討する。
さまざまな専門知識を持つアノテータからのアノテーションで構成された大規模な社内データセットを使用します。
GPT-4を含む複数のアノテータから収集したスパンレベルラベルをコミュニティに提供する予定です。
- 参考スコア(独自算出の注目度): 11.64165958410489
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of propagandistic techniques in online contents has increased in
recent years aiming to manipulate online audiences. Efforts to automatically
detect and debunk such content have been made addressing various modeling
scenarios. These include determining whether the content (text, image, or
multimodal) (i) is propagandistic, (ii) employs one or more propagandistic
techniques, and (iii) includes techniques with identifiable spans. Significant
research efforts have been devoted to the first two scenarios compared to the
latter. Therefore, in this study, we focus on the task of detecting
propagandistic textual spans. Specifically, we investigate whether large
language models (LLMs), such as GPT-4, can effectively perform the task.
Moreover, we study the potential of employing the model to collect more
cost-effective annotations. Our experiments use a large-scale in-house dataset
consisting of annotations from human annotators with varying expertise levels.
The results suggest that providing more information to the model as prompts
improves its performance compared to human annotations. Moreover, our work is
the first to show the potential of utilizing LLMs to develop annotated datasets
for this specific task, prompting it with annotations from human annotators
with limited expertise. We plan to make the collected span-level labels from
multiple annotators, including GPT-4, available for the community.
- Abstract(参考訳): 近年,オンラインコンテンツにおけるプロパガンダ的手法の利用が増加している。
このようなコンテンツを自動で検出・削除する取り組みが、さまざまなモデリングシナリオで行われている。
内容(テキスト、画像、またはマルチモーダル)を決定することを含む。
(i)プロパガンダである。
(ii)一つ以上の布教技術を用い、
(iii) スパンを識別できる技術を含む。
最初の2つのシナリオは、後者と比較して重要な研究努力が注がれている。
そこで本研究では,プロパガンダ的テキストスパンの検出に焦点をあてる。
具体的には,GPT-4のような大規模言語モデル(LLM)が効果的にタスクを実行できるかどうかを検討する。
さらに,よりコスト効率のよいアノテーションを収集するために,モデルを活用する可能性についても検討する。
実験では,さまざまな専門知識を持つアノテータからのアノテーションからなる大規模社内データセットを用いた。
その結果,人間のアノテーションと比較して,モデルの性能向上が示唆された。
さらに,本研究は,この特定のタスクに注釈付きデータセットを開発するためにLLMを利用する可能性を示す最初のものである。
GPT-4を含む複数のアノテータから収集したスパンレベルラベルをコミュニティに提供する予定です。
関連論文リスト
- Improving Pinterest Search Relevance Using Large Language Models [15.24121687428178]
我々はLarge Language Models (LLM) を検索関連モデルに統合する。
提案手法では,生成的視覚言語モデルから抽出したキャプションを含むコンテンツ表現とともに検索クエリを使用する。
LLMをベースとしたモデルからリアルタイム可観測モデルアーキテクチャと特徴を抽出する。
論文 参考訳(メタデータ) (2024-10-22T16:29:33Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text [1.2699007098398802]
本研究は, 説得の言語に関する文献で同定された22の修辞的, 言語学的特徴を分類した。
WebアプリケーションであるRhetAnnは、そうでなければかなりの精神的な努力を最小限に抑えるように設計されている。
注釈付きデータの小さなセットは、生成的大言語モデル(LLM)であるGPT-3.5を微調整し、残りのデータに注釈を付けた。
論文 参考訳(メタデータ) (2024-07-16T15:15:39Z) - Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles [11.64165958410489]
これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。
我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-27T13:02:19Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。