論文の概要: Assessing Large Language Models for Online Extremism Research: Identification, Explanation, and New Knowledge
- arxiv url: http://arxiv.org/abs/2408.16749v1
- Date: Thu, 29 Aug 2024 17:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 12:51:37.070698
- Title: Assessing Large Language Models for Online Extremism Research: Identification, Explanation, and New Knowledge
- Title(参考訳): オンラインエクストリームズム研究のための大規模言語モデルの評価:識別・説明・新しい知識
- Authors: Beidi Dong, Jin R. Lee, Ziwei Zhu, Balassubramanian Srinivasan,
- Abstract要約: 米国では暴力的過激主義が著しく増加しており、オンラインの過激主義イデオロギーを検知し制限する自動化ツールの必要性が高まっている。
本研究は、オンライン・エクストリーム・ポストの検出・分類における、BERTとGPTの双方向表現の有効性を評価する。
- 参考スコア(独自算出の注目度): 1.5903891569492878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The United States has experienced a significant increase in violent extremism, prompting the need for automated tools to detect and limit the spread of extremist ideology online. This study evaluates the performance of Bidirectional Encoder Representations from Transformers (BERT) and Generative Pre-Trained Transformers (GPT) in detecting and classifying online domestic extremist posts. We collected social media posts containing "far-right" and "far-left" ideological keywords and manually labeled them as extremist or non-extremist. Extremist posts were further classified into one or more of five contributing elements of extremism based on a working definitional framework. The BERT model's performance was evaluated based on training data size and knowledge transfer between categories. We also compared the performance of GPT 3.5 and GPT 4 models using different prompts: na\"ive, layperson-definition, role-playing, and professional-definition. Results showed that the best performing GPT models outperformed the best performing BERT models, with more detailed prompts generally yielding better results. However, overly complex prompts may impair performance. Different versions of GPT have unique sensitives to what they consider extremist. GPT 3.5 performed better at classifying far-left extremist posts, while GPT 4 performed better at classifying far-right extremist posts. Large language models, represented by GPT models, hold significant potential for online extremism classification tasks, surpassing traditional BERT models in a zero-shot setting. Future research should explore human-computer interactions in optimizing GPT models for extremist detection and classification tasks to develop more efficient (e.g., quicker, less effort) and effective (e.g., fewer errors or mistakes) methods for identifying extremist content.
- Abstract(参考訳): 米国では暴力的過激主義が著しく増加しており、オンラインの過激主義イデオロギーを検知し制限する自動化ツールの必要性が高まっている。
本研究は,2方向エンコーダ表現(BERT, Generative Pre-Trained Transformers, GPT)の性能評価を行った。
我々は「極右」と「極左」のイデオロギーキーワードを含むソーシャルメディア投稿を収集し、手動で過激派または非過激派とラベル付けした。
エクストリーム主義のポストは、作業定義の枠組みに基づいて、エクストリーム主義の5つの要素のうちの1つまたは複数の要素にさらに分類された。
BERTモデルの性能は,学習データサイズとカテゴリ間の知識伝達に基づいて評価した。
また, GPT 3.5 モデルと GPT 4 モデルの性能を異なるプロンプト(na\, layperson-definition, role-playing, professional-definition)を用いて比較した。
その結果、最高のパフォーマンスのGPTモデルは、最高のパフォーマンスのBERTモデルよりも優れており、より詳細なプロンプトは一般的により良い結果をもたらすことがわかった。
しかし、複雑すぎるプロンプトはパフォーマンスを損なう可能性がある。
GPTの異なるバージョンは、過激派とみなすものに独特な敏感さを持っている。
GPT 3.5は極右極右極右ポストの分類に優れ, GPT 4は極右極右ポストの分類に優れていた。
GPTモデルで表される大規模な言語モデルは、ゼロショット設定で従来のBERTモデルを上回るオンライン過激主義分類タスクにおいて大きな可能性を秘めている。
今後の研究は、極端検出および分類タスクのためのGPTモデルを最適化し、より効率的な(例えば、より速く、より少ない労力)と効率的な(例えば、誤りや誤りを減らす)方法を開発するための人間とコンピュータの相互作用を検討するべきである。
関連論文リスト
- Exploring ChatGPT for Face Presentation Attack Detection in Zero and Few-Shot in-Context Learning [6.537257913467247]
本研究では,顔提示検出(PAD)の代替手段としてのChatGPT(特にGPT-4o)の可能性を明らかにする。
以上の結果から, GPT-4oは高一貫性を示すことが示唆された。
注目すべきは、このモデルは創発的な推論能力を示し、数ショットのシナリオで高い精度で攻撃タイプ(プリントまたはリプレイ)を正確に予測する。
論文 参考訳(メタデータ) (2025-01-15T13:46:33Z) - MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - BERT vs GPT for financial engineering [0.0]
論文は、これらのモデルがニュースイベントから感情を判断する方法を示すために、いくつかのTransformerモデルをベンチマークする。
細調整されたBERTモデルは,細調整されたGPTモデルやバニラGPTモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-24T11:30:04Z) - Efficient argument classification with compact language models and ChatGPT-4 refinements [0.0]
本稿では,議論マイニングにおける深層学習モデルの比較研究について述べる。
本稿では,BERTアーキテクチャに基づくアンサンブルモデルと,微調整モデルとしてのChatGPT-4について述べる。
以上の結果から,BERT+ChatGPT-4は他のTransformerベースモデルやLSTMベースモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-20T16:24:10Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot
Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文 参考訳(メタデータ) (2023-05-21T14:45:17Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。