論文の概要: Hybrid Annotation for Propaganda Detection: Integrating LLM Pre-Annotations with Human Intelligence
- arxiv url: http://arxiv.org/abs/2507.18343v1
- Date: Thu, 24 Jul 2025 12:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.622288
- Title: Hybrid Annotation for Propaganda Detection: Integrating LLM Pre-Annotations with Human Intelligence
- Title(参考訳): プロパガンダ検出のためのハイブリッドアノテーション:LLMプレアノテーションとヒューマンインテリジェンスの統合
- Authors: Ariana Sahitaj, Premtim Sahitaj, Veronika Solopova, Jiaao Li, Sebastian Möller, Vera Schmitt,
- Abstract要約: 本稿では,人間の専門知識とLarge Language Model (LLM) の支援を組み合わせることで,アノテーションの一貫性とスケーラビリティを両立させる新しいフレームワークを提案する。
本稿では,14の細粒度プロパガンダを3つのカテゴリに分類する階層型分類法を提案する。
我々は,LLMを利用した事前アノテーションパイプラインを実装し,プロパガンダ的スパンを抽出し,簡潔な説明を生成し,ローカルラベルとグローバルラベルを割り当てる。
- 参考スコア(独自算出の注目度): 8.856227991149506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Propaganda detection on social media remains challenging due to task complexity and limited high-quality labeled data. This paper introduces a novel framework that combines human expertise with Large Language Model (LLM) assistance to improve both annotation consistency and scalability. We propose a hierarchical taxonomy that organizes 14 fine-grained propaganda techniques into three broader categories, conduct a human annotation study on the HQP dataset that reveals low inter-annotator agreement for fine-grained labels, and implement an LLM-assisted pre-annotation pipeline that extracts propagandistic spans, generates concise explanations, and assigns local labels as well as a global label. A secondary human verification study shows significant improvements in both agreement and time-efficiency. Building on this, we fine-tune smaller language models (SLMs) to perform structured annotation. Instead of fine-tuning on human annotations, we train on high-quality LLM-generated data, allowing a large model to produce these annotations and a smaller model to learn to generate them via knowledge distillation. Our work contributes towards the development of scalable and robust propaganda detection systems, supporting the idea of transparent and accountable media ecosystems in line with SDG 16. The code is publicly available at our GitHub repository.
- Abstract(参考訳): ソーシャルメディア上のプロパガンダ検出は、タスクの複雑さと高品質なラベル付きデータに制限があるため、依然として困難である。
本稿では,人間の専門知識とLarge Language Model (LLM) の支援を組み合わせることで,アノテーションの一貫性とスケーラビリティを両立させる新しいフレームワークを提案する。
本研究では,14の微細なプロパガンダ技術を3つのカテゴリに分類する階層型分類法を提案し,細粒度ラベルに対するアノテータ間合意の低さを明らかにするHQPデータセットの人為的アノテーション研究を行い,プロパガンダ的スパンを抽出し,簡潔な説明を生成し,ローカルなラベルとグローバルなラベルを割り当てるLLM支援プレアノテーションパイプラインを実装した。
二次的人間の検証研究は、合意と時間効率の両方において顕著な改善を示している。
これに基づいて、構造化アノテーションを実行するために、より小さな言語モデル(SLM)を微調整する。
人間のアノテーションを微調整する代わりに、高品質なLCM生成データをトレーニングすることで、大きなモデルがこれらのアノテーションを生成でき、小さなモデルが知識蒸留を通じてそれらを生成することを学べます。
本研究は,SDG16に則って,透明で説明可能なメディアエコシステムの構想を支援する,スケーラブルで堅牢なプロパガンダ検出システムの開発に寄与する。
コードはGitHubリポジトリで公開されています。
関連論文リスト
- Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation [35.1208076670736]
本稿では,大言語モデルにおいて不確実性発生時に可能なラベルを全て出力することを推奨する新しい候補アノテーションパラダイムを提案する。
下流タスクにユニークなラベルを提供することを保証するため,小言語モデルを用いて候補アノテーションを蒸留する教師学習フレームワークCanDistを開発した。
論文 参考訳(メタデータ) (2025-06-04T11:42:37Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - A Self Supervised StyleGAN for Image Annotation and Classification with
Extremely Limited Labels [35.43549147657739]
画像アノテーションと分類のための自己教師型アプローチであるSS-StyleGANを提案する。
提案手法は,50と10の小さなラベル付きデータセットを用いて,強力な分類結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-26T09:46:50Z) - Large Language Models for Propaganda Span Annotation [10.358271919023903]
本研究は, GPT-4のような大規模言語モデルが, 効果的にプロパガンダ的スパンを抽出できるかどうかを考察する。
実験は、大規模な社内アノテートデータセット上で実施される。
論文 参考訳(メタデータ) (2023-11-16T11:37:54Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。