論文の概要: Large language models can consistently generate high-quality content for election disinformation operations
- arxiv url: http://arxiv.org/abs/2408.06731v1
- Date: Tue, 13 Aug 2024 08:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:07:03.029697
- Title: Large language models can consistently generate high-quality content for election disinformation operations
- Title(参考訳): 大規模言語モデルは、選挙情報処理のための高品質なコンテンツを一貫して生成できる
- Authors: Angus R. Williams, Liam Burke-Moore, Ryan Sze-Yin Chan, Florence E. Enock, Federico Nanni, Tvesha Sippy, Yi-Ling Chung, Evelina Gabasova, Kobi Hackenburg, Jonathan Bright,
- Abstract要約: 大規模言語モデルでは、説得力のある選挙偽情報を大規模に生成する可能性について懸念が高まっている。
本研究は,選挙偽情報処理の段階を自動化するLLMの能力について,二部構成で検討した。
- 参考スコア(独自算出の注目度): 2.98293101034582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in large language models have raised concerns about their potential use in generating compelling election disinformation at scale. This study presents a two-part investigation into the capabilities of LLMs to automate stages of an election disinformation operation. First, we introduce DisElect, a novel evaluation dataset designed to measure LLM compliance with instructions to generate content for an election disinformation operation in localised UK context, containing 2,200 malicious prompts and 50 benign prompts. Using DisElect, we test 13 LLMs and find that most models broadly comply with these requests; we also find that the few models which refuse malicious prompts also refuse benign election-related prompts, and are more likely to refuse to generate content from a right-wing perspective. Secondly, we conduct a series of experiments (N=2,340) to assess the "humanness" of LLMs: the extent to which disinformation operation content generated by an LLM is able to pass as human-written. Our experiments suggest that almost all LLMs tested released since 2022 produce election disinformation operation content indiscernible by human evaluators over 50% of the time. Notably, we observe that multiple models achieve above-human levels of humanness. Taken together, these findings suggest that current LLMs can be used to generate high-quality content for election disinformation operations, even in hyperlocalised scenarios, at far lower costs than traditional methods, and offer researchers and policymakers an empirical benchmark for the measurement and evaluation of these capabilities in current and future models.
- Abstract(参考訳): 大規模言語モデルの進歩は、説得力のある選挙偽情報を大規模に生成する可能性への懸念を提起している。
本研究は,選挙偽情報処理の段階を自動化するLLMの能力について,二部構成で検討した。
まず,2200件の悪意のあるプロンプトと50件の良心的なプロンプトを含む,英国における選挙偽情報操作のコンテンツを生成するための命令によるLCMコンプライアンスの測定を目的とした,新たな評価データセットであるDisElectを紹介する。
また、悪意のあるプロンプトを拒否する数少ないモデルは、良心的な選挙関連プロンプトを拒否し、右翼の観点からコンテンツを生成することを拒否する傾向にあることも見出した。
次に, LLMの「人間性」を評価するための一連の実験(N=2,340)を行った。
以上の結果から,2022年以降に試験されたほぼ全てのLDMは,その50%以上の期間において,人的評価者による選挙偽情報操作の内容が認められないことが示唆された。
特に、複数のモデルが人間性以上のレベルを達成するのを観察する。
これらの結果は, 従来の手法よりもはるかに低コストで, 高局所化シナリオにおいても, 選挙情報処理のための高品質なコンテンツを生成するために, 現行のLCMを使用することが可能であることを示唆し, 研究者や政策立案者に対して, 現状および将来モデルにおけるこれらの機能の測定と評価に関する実証的ベンチマークを提供する。
関連論文リスト
- Fact or Fiction? Can LLMs be Reliable Annotators for Political Truths? [2.321323878201932]
政治的誤報は民主的プロセスに挑戦し、世論を形成し、メディアを信頼する。
本研究では,ニュース記事の政治的事実を検出するための信頼性アノテータとして,最先端の大規模言語モデル (LLM) を用いることを検討した。
論文 参考訳(メタデータ) (2024-11-08T18:36:33Z) - United in Diversity? Contextual Biases in LLM-Based Predictions of the 2024 European Parliament Elections [45.84205238554709]
大規模言語モデル(LLM)は、社会科学研究に革命をもたらす可能性があると認識されている。
本研究では,LLMに基づく世論の予測が文脈依存バイアスを示す程度について検討した。
我々は2024年の欧州議会選挙における投票行動について、最先端のLDMを用いて予測する。
論文 参考訳(メタデータ) (2024-08-29T16:01:06Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Large Language Models (LLMs) as Agents for Augmented Democracy [6.491009626125319]
我々は、市民の嗜好に関するデータを増やすために、既成のLLMを微調整した拡張民主主義システムについて検討する。
被験者の個人の政治的選択と参加者の全サンプルの集合的選好の両方をLLMが予測する精度を推定するために、列車試験のクロスバリデーション・セットアップを使用する。
論文 参考訳(メタデータ) (2024-05-06T13:23:57Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。