論文の概要: Large Language Models for Propaganda Span Annotation
- arxiv url: http://arxiv.org/abs/2311.09812v3
- Date: Sun, 06 Oct 2024 08:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:02.405952
- Title: Large Language Models for Propaganda Span Annotation
- Title(参考訳): プロパガンダスパンアノテーションのための大規模言語モデル
- Authors: Maram Hasanain, Fatema Ahmad, Firoj Alam,
- Abstract要約: 本研究は, GPT-4のような大規模言語モデルが, 効果的にプロパガンダ的スパンを抽出できるかどうかを考察する。
実験は、大規模な社内アノテートデータセット上で実施される。
- 参考スコア(独自算出の注目度): 10.358271919023903
- License:
- Abstract: The use of propagandistic techniques in online content has increased in recent years aiming to manipulate online audiences. Fine-grained propaganda detection and extraction of textual spans where propaganda techniques are used, are essential for more informed content consumption. Automatic systems targeting the task over lower resourced languages are limited, usually obstructed by lack of large scale training datasets. Our study investigates whether Large Language Models (LLMs), such as GPT-4, can effectively extract propagandistic spans. We further study the potential of employing the model to collect more cost-effective annotations. Finally, we examine the effectiveness of labels provided by GPT-4 in training smaller language models for the task. The experiments are performed over a large-scale in-house manually annotated dataset. The results suggest that providing more annotation context to GPT-4 within prompts improves its performance compared to human annotators. Moreover, when serving as an expert annotator (consolidator), the model provides labels that have higher agreement with expert annotators, and lead to specialized models that achieve state-of-the-art over an unseen Arabic testing set. Finally, our work is the first to show the potential of utilizing LLMs to develop annotated datasets for propagandistic spans detection task prompting it with annotations from human annotators with limited expertise. All scripts and annotations will be shared with the community.
- Abstract(参考訳): 近年,オンラインコンテンツにおけるプロパガンダ的手法の利用が増加し,オンラインオーディエンスの操作が目指されている。
プロパガンダ技術を用いたテキストスパンの微細なプロパガンダ検出と抽出は、より情報的なコンテンツ消費に不可欠である。
低リソース言語を対象とするタスクを対象とする自動システムは制限されており、通常は大規模なトレーニングデータセットの欠如によって妨害される。
本研究は, GPT-4 のような大規模言語モデル (LLM) が, 効果的にプロパガンダ的スパンを抽出できるかどうかを考察する。
さらに、よりコスト効率の良いアノテーションを集めるためにモデルを採用する可能性についても検討する。
最後に,GPT-4によって提供されるラベルが,タスクのためのより小さな言語モデルを訓練する際の有効性について検討する。
実験は、大規模な社内アノテートデータセット上で実施される。
その結果, GPT-4にプロンプト内でより多くのアノテーションコンテキストを提供することで, ヒトのアノテータに比べて性能が向上することが示唆された。
さらに、エキスパートアノテータ(コンソリエータ)として機能する際、このモデルは専門家アノテータとのより高い合意を持つラベルを提供し、目に見えないアラビアテストセットで最先端を達成する専門的なモデルへと導く。
最後に、私たちの研究は、LLMを使用して、限られた専門知識を持つ人間アノテーションからアノテーションを誘導するプロパガンダ的スパン検出タスクのためのアノテーション付きデータセットを開発する可能性を示す最初のものである。
すべてのスクリプトとアノテーションはコミュニティと共有される。
関連論文リスト
- GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text [1.2699007098398802]
本研究は, 説得の言語に関する文献で同定された22の修辞的, 言語学的特徴を分類した。
WebアプリケーションであるRhetAnnは、そうでなければかなりの精神的な努力を最小限に抑えるように設計されている。
注釈付きデータの小さなセットは、生成的大言語モデル(LLM)であるGPT-3.5を微調整し、残りのデータに注釈を付けた。
論文 参考訳(メタデータ) (2024-07-16T15:15:39Z) - Can GPT-4 Identify Propaganda? Annotation and Detection of Propaganda
Spans in News Articles [11.64165958410489]
これまでで最大のプロパガンダデータセットを開発し、23のプロパガンダ手法の分類に従ってテキストスパンレベルにラベル付けされた新聞記事から8K節からなる。
我々の研究は、GPT-4を用いてテキストから微細なプロパガンダ検出を行う大規模言語モデル(LLM)の性能を理解するための最初の試みである。
その結果, GPT-4の性能低下は, 段落を単にプロパガンダ的か否かの分類から, プロパガンダ技術の検出やテキストでの表現のきめ細かいタスクへと移行することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-27T13:02:19Z) - Less is More: A Closer Look at Semantic-based Few-Shot Learning [11.724194320966959]
Few-shot Learningは、利用可能な画像の数が非常に限られている新しいカテゴリを学習し、区別することを目的としている。
本稿では,テキスト情報と言語モデルを活用することを目的とした,数ショットの学習タスクのための,シンプルだが効果的なフレームワークを提案する。
広範に使われている4つのショットデータセットで実施した実験は、我々の単純なフレームワークが印象的な結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-10T08:56:02Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。