論文の概要: Evaluating the Propensity of Generative AI for Producing Disinformation During an Election Cycle
- arxiv url: http://arxiv.org/abs/2411.06120v1
- Date: Sat, 09 Nov 2024 09:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:58.286444
- Title: Evaluating the Propensity of Generative AI for Producing Disinformation During an Election Cycle
- Title(参考訳): 選挙サイクルにおける偽情報生成のための生成AIの有効性の評価
- Authors: Erik J Schlicht,
- Abstract要約: 本研究では、選挙期間中に有害な偽情報を生成するために、現在の生成AIモデルの妥当性について検討する。
コピロとジェミニは、予想される最低限の損害に気付き、全体的な安全性能に結びついていることが判明した。
敵対的役割の特徴が発見され 全てのモデルに より大きな害をもたらすことが判明しました
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Generative Artificial Intelligence offers a powerful tool for adversaries who wish to engage in influence operations, such as the Chinese Spamouflage operation and the Russian Internet Research Agency effort that both sought to interfere with recent US election cycles. Therefore, this study seeks to investigate the propensity of current Generative AI models for producing harmful disinformation during an election cycle. The probability that different Generative AI models produced disinformation when given adversarial prompts was evaluated, in addition the associated harm. This allows for the expected harm for each model to be computed and it was discovered that Copilot and Gemini tied for the overall safest performance by realizing the lowest expected harm, while GPT-4o produced the greatest rates of harmful disinformation, resulting in much higher expected harm scores. The impact of disinformation category was also investigated and Gemini was safest within the political category of disinformation, while Copilot was safest for topics related to health. Moreover, characteristics of adversarial roles were discovered that led to greater expected harm across all models. Finally, classification models were developed that predicted disinformation production based on the conditions considered in this study, which offers insight into factors important for predicting disinformation production. Based on all of these insights, recommendations are provided that seek to mitigate factors that lead to harmful disinformation being produced by Generative AI models. It is hoped that developers will use these insights to improve future models.
- Abstract(参考訳): 生成人工知能(Generative Artificial Intelligence)は、中国のスパムーフラージュ作戦やロシアのインターネット研究機関(Internet Research Agency)など、米国の最近の選挙サイクルに干渉しようとする敵に強力なツールを提供する。
そこで本研究では, 選挙期間中に有害な偽情報を生成するために, 現在の生成AIモデルの妥当性を検討する。
異なる生成AIモデルが与えられた逆方向のプロンプトで偽情報を生成する確率を評価した。
これにより、各モデルに対する期待される害が計算され、コピロとジェミニが最も低い害を達成し、GPT-4oが最も有害な偽情報を発生し、予想される被害スコアが大幅に高くなることが判明した。
偽情報のカテゴリの影響も調査され、ジェミニは政治上の偽情報のカテゴリの中では最も安全であり、コパイロットは健康に関するトピックでは最も安全であった。
さらに、敵対的役割の特徴が発見され、全てのモデルにより大きな害をもたらすことが判明した。
最後に, 偽情報生成を予測できる分類モデルを開発し, 偽情報生成の予測に重要な要因について考察した。
これらすべての洞察に基づいて、ジェネレーティブAIモデルによって生成される有害な偽情報につながる要因を軽減するためのレコメンデーションが提供される。
開発者はこれらの洞察を使って将来のモデルを改善することが期待されている。
関連論文リスト
- How Aligned are Generative Models to Humans in High-Stakes Decision-Making? [10.225573060836478]
大規模生成モデル(LM)は、高い意思決定のためにますます検討されている。
この研究は、リシビズム予測の特定のケースにおいて、そのようなモデルが人間や予測AIモデルとどのように比較されるかを検討する。
論文 参考訳(メタデータ) (2024-10-20T19:00:59Z) - Generative AI for Secure and Privacy-Preserving Mobile Crowdsensing [74.58071278710896]
生成AIは、学術分野と産業分野の両方から多くの注目を集めている。
セキュアでプライバシ保護のモバイルクラウドセンシング(SPPMCS)は、データ収集/取得に広く応用されている。
論文 参考訳(メタデータ) (2024-05-17T04:00:58Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - FIMBA: Evaluating the Robustness of AI in Genomics via Feature
Importance Adversarial Attacks [0.0]
本稿では、認識された公開ゲノムデータセット上の下流タスクを利用するAIモデルの脆弱性を実証する。
我々は、実際のデータを模倣し、モデルの意思決定を混乱させながら、入力変換に焦点を当てた攻撃を展開することによって、モデルの堅牢性を損なう。
実験の結果, 精度が低下し, 偽陽性や偽陰性が増加し, モデル性能が低下していることが明らかとなった。
論文 参考訳(メタデータ) (2024-01-19T12:04:31Z) - Reconciling AI Performance and Data Reconstruction Resilience for
Medical Imaging [52.578054703818125]
人工知能(AI)モデルは、トレーニングデータの情報漏洩に対して脆弱であり、非常に敏感である。
差別化プライバシ(DP)は、定量的なプライバシー予算を設定することで、これらの感受性を回避することを目的としている。
非常に大きなプライバシ予算を使用することで、リコンストラクション攻撃は不可能であり、パフォーマンスの低下は無視可能であることを示す。
論文 参考訳(メタデータ) (2023-12-05T12:21:30Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Against Algorithmic Exploitation of Human Vulnerabilities [2.6918074738262194]
我々は、機械学習モデルが故意に脆弱性をモデル化することを懸念している。
一般的な脆弱性を記述し、アルゴリズムによる意思決定においてそれらが役割を担っている可能性を示す。
本稿では,脆弱性モデリングの可能性を検出する手法の一連の要件を提案する。
論文 参考訳(メタデータ) (2023-01-12T13:15:24Z) - Addressing contingency in algorithmic (mis)information classification:
Toward a responsible machine learning agenda [0.9659642285903421]
データサイエンティストは、モデルトレーニングとテストに使用される「真実の情報源の客観性、信頼性、正当性」にスタンスを取る必要がある。
彼らの報告された高い正確さと性能にもかかわらず、ML駆動のモデレーションシステムは、オンラインの公開討論を形作り、不正な検閲や偽の信念の強化のような下流のネガティブな影響を生み出す可能性がある。
論文 参考訳(メタデータ) (2022-10-05T17:34:51Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - Predictability and Surprise in Large Generative Models [8.055204456718576]
大規模プレトレーニングは、有能で汎用的な生成モデルを作成するための技術として登場した。
本稿では,そのようなモデルの直観的特性を強調し,この特性の政策的含意について論じる。
論文 参考訳(メタデータ) (2022-02-15T23:21:23Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。