Fugu-MT 論文翻訳(概要): GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text

論文の概要: GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text

arxiv url: http://arxiv.org/abs/2407.11827v1
Date: Tue, 16 Jul 2024 15:15:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 14:13:22.165163
Title: GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text
Title（参考訳）: GPTによるニューステキストにおける韻律的・言語的特徴のアノテーションによる解釈可能プロパガンダ検出
Authors: Kyle Hamilton, Luca Longo, Bojan Bozic,
Abstract要約: 本研究は, 説得の言語に関する文献で同定された22の修辞的, 言語学的特徴を分類した。 WebアプリケーションであるRhetAnnは、そうでなければかなりの精神的な努力を最小限に抑えるように設計されている。注釈付きデータの小さなセットは、生成的大言語モデル(LLM)であるGPT-3.5を微調整し、残りのデータに注釈を付けた。
参考スコア（独自算出の注目度）: 1.2699007098398802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While the use of machine learning for the detection of propaganda techniques in text has garnered considerable attention, most approaches focus on "black-box" solutions with opaque inner workings. Interpretable approaches provide a solution, however, they depend on careful feature engineering and costly expert annotated data. Additionally, language features specific to propagandistic text are generally the focus of rhetoricians or linguists, and there is no data set labeled with such features suitable for machine learning. This study codifies 22 rhetorical and linguistic features identified in literature related to the language of persuasion for the purpose of annotating an existing data set labeled with propaganda techniques. To help human experts annotate natural language sentences with these features, RhetAnn, a web application, was specifically designed to minimize an otherwise considerable mental effort. Finally, a small set of annotated data was used to fine-tune GPT-3.5, a generative large language model (LLM), to annotate the remaining data while optimizing for financial cost and classification accuracy. This study demonstrates how combining a small number of human annotated examples with GPT can be an effective strategy for scaling the annotation process at a fraction of the cost of traditional annotation relying solely on human experts. The results are on par with the best performing model at the time of writing, namely GPT-4, at 10x less the cost. Our contribution is a set of features, their properties, definitions, and examples in a machine-readable format, along with the code for RhetAnn and the GPT prompts and fine-tuning procedures for advancing state-of-the-art interpretable propaganda technique detection.
Abstract（参考訳）: テキスト中のプロパガンダテクニックの検出に機械学習を用いることは注目されているが、ほとんどのアプローチは不透明な内部動作を伴う「ブラックボックス」ソリューションに焦点を当てている。解釈可能なアプローチはソリューションを提供するが、それらは注意深い機能エンジニアリングと高価な専門家アノテートデータに依存している。さらに、プロパガンダ的なテキストに特有の言語特徴は、一般に修辞学者や言語学者の焦点であり、機械学習に適した特徴をラベル付けしたデータセットは存在しない。本研究は,プロパガンダ手法でラベル付けされた既存のデータセットに注釈をつけることを目的とした,説得の言語に関する文献で同定された22の修辞的・言語学的特徴をコーデレートした。人間の専門家がこれらの特徴で自然言語文に注釈を付けるのを助けるために、WebアプリケーションであるRhetAnnは、あまり大きな精神的な努力を最小限に抑えるために特別に設計された。最後に,生成型大規模言語モデル(LLM)であるGPT-3.5を微調整し,財務コストと分類精度を最適化したアノテートデータを用いた。本研究は,ごく少数の注釈付き例をGPTと組み合わせることが,従来のアノテーションのコストのごく一部でアノテーションプロセスのスケールアップに有効であることを示す。結果は、書き込み時の最高のパフォーマンスモデル、すなわちGPT-4と10倍のコストで同等である。我々のコントリビューションは、RhetAnnのコードとGPTプロンプトと、最先端の解釈可能なプロパガンダ検出のための微調整手順とともに、機械可読形式の機能、その特性、定義、例の集合である。

関連論文リスト

Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection [102.1314414263959]
限られた特徴表現と厳しい背景干渉のため、赤外線小目標検出は依然として困難である。エンドツーエンドの言語プロンプト駆動フレームワークであるDGSPNetを提案する。提案手法は検出精度を大幅に向上し、3つのベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2025-11-24T16:58:23Z)
Large Language Models as Span Annotators [5.488183187190419]
spanアノテーションは改善をガイドし、洞察を提供する。最近まで、スパンアノテーションは人間のアノテーションや微調整エンコーダモデルに限られていた。大型言語モデル(LLM)は実装が簡単で、人間のアノテータよりもコスト効率が高いことを示す。
論文参考訳（メタデータ） (2025-04-11T17:04:51Z)
Enhancing Plagiarism Detection in Marathi with a Weighted Ensemble of TF-IDF and BERT Embeddings for Low-Resource Language Processing [0.0]
低リソース言語に適した堅牢な盗作検知システムを設計することが重要である。本稿では,マラタイ文字の盗作検出精度を高める手法を提案する。
論文参考訳（メタデータ） (2025-01-09T14:14:18Z)
TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。 GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文参考訳（メタデータ） (2024-12-19T13:10:03Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes [2.2162879952427343]
本稿では,バイアス検出の革新的なアプローチであるGAS-Netを紹介する。 GUS-Netは、(G)エナラライゼーション、(U)nfairness、(S)tereotypesの3つの重要な種類のバイアスに焦点を当てている。本手法は,事前学習したモデルの文脈エンコーディングを組み込むことにより,従来のバイアス検出手法を強化する。
論文参考訳（メタデータ） (2024-10-10T21:51:22Z)
Can GPT-4 learn to analyse moves in research article abstracts? [0.9999629695552195]
我々は、自然言語のプロンプトを用いてアノテーションプロセスを自動化するため、GPT-4の余裕を生かしている。 8ショットのプロンプトは2つを用いた場合よりも有効であり、可変性の領域を示す例を含めることで、単一の文で複数の動きを認識できるGPT-4の能力を高めることが確認された。
論文参考訳（メタデータ） (2024-07-22T13:14:27Z)
Large Language Models for Propaganda Span Annotation [10.358271919023903]
本研究は, GPT-4のような大規模言語モデルが, 効果的にプロパガンダ的スパンを抽出できるかどうかを考察する。実験は、大規模な社内アノテートデータセット上で実施される。
論文参考訳（メタデータ） (2023-11-16T11:37:54Z)
Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文参考訳（メタデータ） (2023-07-10T11:29:41Z)
Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文参考訳（メタデータ） (2023-06-06T10:18:17Z)
COFFEE: Counterfactual Fairness for Personalized Text Generation in Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文参考訳（メタデータ） (2022-10-14T02:29:10Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Assisted Text Annotation Using Active Learning to Achieve High Quality with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文参考訳（メタデータ） (2021-12-15T13:14:58Z)
Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文参考訳（メタデータ） (2021-06-11T20:15:21Z)
Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文参考訳（メタデータ） (2021-06-04T09:48:28Z)
Leveraging Declarative Knowledge in Text and First-Order Logic for Fine-Grained Propaganda Detection [139.3415751957195]
本稿では,ニュース記事中のプロパガンダ的テキスト断片の検出について検討する。本稿では,詳細なプロパガンダ手法の宣言的知識を注入する手法を提案する。
論文参考訳（メタデータ） (2020-04-29T13:46:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。