論文の概要: Promoting Online Safety by Simulating Unsafe Conversations with LLMs
- arxiv url: http://arxiv.org/abs/2507.22267v1
- Date: Tue, 29 Jul 2025 22:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.890667
- Title: Promoting Online Safety by Simulating Unsafe Conversations with LLMs
- Title(参考訳): LLMを用いた不安全な会話のシミュレーションによるオンライン安全の促進
- Authors: Owen Hoffman, Kangze Peng, Zehua You, Sajid Kamal, Sukrit Venkatagiri,
- Abstract要約: 大規模言語モデル(LLM)は、オンラインにおける安全でない会話のスピード、スケール、タイプを向上する可能性があり、すでに使用されている。
本稿では,LLMを使わずともオンラインで起こりうる,安全でない会話を人々に教えることによって,オンラインの安全性を促進する方法について検討する。
- 参考スコア(独自算出の注目度): 1.7243216387069678
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative AI, including large language models (LLMs) have the potential -- and already are being used -- to increase the speed, scale, and types of unsafe conversations online. LLMs lower the barrier for entry for bad actors to create unsafe conversations in particular because of their ability to generate persuasive and human-like text. In our current work, we explore ways to promote online safety by teaching people about unsafe conversations that can occur online with and without LLMs. We build on prior work that shows that LLMs can successfully simulate scam conversations. We also leverage research in the learning sciences that shows that providing feedback on one's hypothetical actions can promote learning. In particular, we focus on simulating scam conversations using LLMs. Our work incorporates two LLMs that converse with each other to simulate realistic, unsafe conversations that people may encounter online between a scammer LLM and a target LLM but users of our system are asked provide feedback to the target LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)を含むジェネレーティブAIは、オンラインのスピード、スケール、タイプを向上する可能性があり、すでに使用されている。
LLMは、特に説得力のある人間的なテキストを生成する能力のために、悪いアクターが安全でない会話を作るための参入障壁を低くする。
本稿では,LLMを使わずともオンラインで起こりうる,安全でない会話を人々に教えることによって,オンラインの安全性を促進する方法について検討する。
我々は、LLMが詐欺会話をうまくシミュレートできることを示す事前の作業の上に構築する。
また,仮説的行動に対するフィードバックが学習を促進することを示す学習科学の研究も活用する。
特に,LSMを用いた詐欺会話のシミュレーションに着目する。
我々の研究は,2つのLLMを相互に会話することで,スキャマーLLMとターゲットLLMとの間でオンラインで遭遇する可能性のある,現実的で安全でない会話をシミュレートする。
関連論文リスト
- Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue [10.101013733390532]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。
本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文 参考訳(メタデータ) (2024-02-27T07:11:59Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Negotiating with LLMS: Prompt Hacks, Skill Gaps, and Reasoning Deficits [1.2818275315985972]
LLMとの価格交渉において,全年齢層で40人以上の個人を対象とするユーザスタディを実施している。
交渉された価格が、LLMと効果的に相互作用する際のリテラシーのギャップを指摘し、人類が幅広い範囲で達成したことを示す。
論文 参考訳(メタデータ) (2023-11-26T08:44:58Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Multi-step Jailbreaking Privacy Attacks on ChatGPT [47.10284364632862]
我々は,OpenAI の ChatGPT と ChatGPT によって強化された New Bing のプライバシー上の脅威について検討した。
我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文 参考訳(メタデータ) (2023-04-11T13:05:04Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。