論文の概要: Generative Language Models and Automated Influence Operations: Emerging
Threats and Potential Mitigations
- arxiv url: http://arxiv.org/abs/2301.04246v1
- Date: Tue, 10 Jan 2023 23:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 13:33:31.355772
- Title: Generative Language Models and Automated Influence Operations: Emerging
Threats and Potential Mitigations
- Title(参考訳): 生成言語モデルと自動影響操作: 新たな脅威と潜在的な緩和
- Authors: Josh A. Goldstein (1 and 3), Girish Sastry (2), Micah Musser (1),
Renee DiResta (3), Matthew Gentzel (2), and Katerina Sedova (1) ((1)
Georgetown's Center for Security and Emerging Technology, (2) OpenAI, (3)
Stanford Internet Observatory)
- Abstract要約: 本報告では,将来,言語モデルが操作にどのような影響を与えるかを評価する。
われわれは、オンライン・インフルエンス・オペレーションのアクター、行動、内容の変更の可能性を明らかにした。
AIによる影響操作の脅威を完全に防ぐ合理的な緩和は期待できないが、複数の緩和の組み合わせは重要な違いをもたらす可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative language models have improved drastically, and can now produce
realistic text outputs that are difficult to distinguish from human-written
content. For malicious actors, these language models bring the promise of
automating the creation of convincing and misleading text for use in influence
operations. This report assesses how language models might change influence
operations in the future, and what steps can be taken to mitigate this threat.
We lay out possible changes to the actors, behaviors, and content of online
influence operations, and provide a framework for stages of the language
model-to-influence operations pipeline that mitigations could target (model
construction, model access, content dissemination, and belief formation). While
no reasonable mitigation can be expected to fully prevent the threat of
AI-enabled influence operations, a combination of multiple mitigations may make
an important difference.
- Abstract(参考訳): 生成言語モデルは大幅に改善され、人間の文章と区別が難しいリアルなテキスト出力を生成できるようになった。
悪意のあるアクターにとって、これらの言語モデルは、影響操作で使用する説得力と誤解を招くテキストの作成を自動化するという約束をもたらす。
本報告では,言語モデルが将来のオペレーションにどのように影響するか,また,この脅威を軽減するためにどのような措置が取られるかを評価する。
我々は,オンライン・インフルエンス・オペレーションのアクター,行動,内容の変更の可能性を明らかにし,緩和がターゲットとなる言語モデル・インフルエンス・オペレーション・パイプラインの段階(モデル構築,モデルアクセス,コンテンツ普及,信念形成)の枠組みを提供する。
AIによる影響操作の脅威を完全に防ぐ合理的な緩和は期待できないが、複数の緩和の組み合わせは重要な違いをもたらす可能性がある。
関連論文リスト
- Can adversarial attacks by large language models be attributed? [1.3812010983144802]
敵の設定における大規模言語モデルからのアウトプットの寄与は、重要度が増大する可能性が高い重要な課題を示す。
正規言語理論,特にゴールドが導入しアングルインが拡張した限界における言語識別を用いて,この帰属問題について検討する。
以上の結果から,特定の言語クラスの識別不可能性から,特定のLLMに出力を確実に属性付けることは理論的には不可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-12T18:28:57Z) - Scaling Behavior of Machine Translation with Large Language Models under Prompt Injection Attacks [4.459306403129608]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて好まれる基盤プラットフォームになりつつある。
彼らの汎用性は、要求命令に埋め込み、モデルが無許可でおそらく安全でない方法で振る舞うエンドユーザによって、それらをサブバージョンに開放する。
本研究では,これらのプロンプトインジェクション・アタック(PIA)をLLMの複数のファミリーで機械翻訳タスクに適用し,モデルサイズが攻撃成功率に与える影響に着目した。
論文 参考訳(メタデータ) (2024-03-14T19:39:10Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Detection of Machine-Generated Text: Literature Survey [0.0]
本研究の目的は,機械生成テキスト分野における成果と成果をコンパイルし,合成することである。
また、機械が生成するテキストの傾向を概観し、より大きな社会的意味を探求する。
論文 参考訳(メタデータ) (2024-01-02T01:44:15Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Learning Flexible Translation between Robot Actions and Language
Descriptions [16.538887534958555]
本稿では,ロボット動作と言語記述とのフレキシブルな変換のためのペアゲートオートエンコーダ(PGAE)を提案する。
我々は、各アクションを、翻訳方向に関する信号を含む適切な記述とペアリングすることで、エンド・ツー・エンドでモデルを訓練する。
事前訓練された言語モデルを言語エンコーダとして使用するオプションにより、我々のモデルは目に見えない自然言語入力を認識することができる。
論文 参考訳(メタデータ) (2022-07-15T12:37:05Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。