Fugu-MT 論文翻訳(概要): Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention

論文の概要: Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention

arxiv url: http://arxiv.org/abs/2403.09795v1
Date: Thu, 14 Mar 2024 18:27:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 21:25:23.883844
Title: Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention
Title（参考訳）: ヘルプフルか有害か? : 大規模言語モデルのオンライングミッシング防止効果を探る
Authors: Ellie Prosser, Matthew Edwards,
Abstract要約: 本稿では,Large Language Models (LLMs) のオンライングルーミング防止効果について検討する。行動に一貫性が欠如しているため、オンラインのグルーミング防止に明確なモデルが適していないことが分かりました。検索はベストプラクティスの使い方ガイドを知らせるのに使うことができる。
参考スコア（独自算出の注目度）: 0.46040036610482665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Powerful generative Large Language Models (LLMs) are becoming popular tools amongst the general public as question-answering systems, and are being utilised by vulnerable groups such as children. With children increasingly interacting with these tools, it is imperative for researchers to scrutinise the safety of LLMs, especially for applications that could lead to serious outcomes, such as online child safety queries. In this paper, the efficacy of LLMs for online grooming prevention is explored both for identifying and avoiding grooming through advice generation, and the impact of prompt design on model performance is investigated by varying the provided context and prompt specificity. In results reflecting over 6,000 LLM interactions, we find that no models were clearly appropriate for online grooming prevention, with an observed lack of consistency in behaviours, and potential for harmful answer generation, especially from open-source models. We outline where and how models fall short, providing suggestions for improvement, and identify prompt designs that heavily altered model performance in troubling ways, with findings that can be used to inform best practice usage guides.
Abstract（参考訳）: 強力な生成型大規模言語モデル(LLM)は、質問応答システムとして一般大衆に普及し、子供のような脆弱なグループによって活用されている。子どもたちがこれらのツールと対話することがますます増えているので、研究者はLSMの安全性を精査することが不可欠である。本稿では, オンライングルーミング防止におけるLCMの有効性を, アドバイス生成によるグルーミングの識別と回避の両面から検討し, 提案したコンテキストの変化と即時特異性によって, モデル性能に対するプロンプト設計の影響について検討する。その結果、6000 LLM の相互作用を反映して、オンライングルーミング防止に明確なモデルが存在しないこと、行動の一貫性の欠如、特にオープンソースモデルによる有害な回答生成の可能性が確認された。モデルをどこで、どのように短くするかを概説し、改善の提案を提供し、問題の多い方法でモデルパフォーマンスを著しく変更したプロンプト設計を特定し、ベストプラクティスの使用ガイドを通知するのに使用できる知見を提示する。

関連論文リスト

Chain-of-Lure: A Synthetic Narrative-Driven Approach to Compromise Large Language Models [15.134149399922192]
そこで本研究では,Chain-of-Thought機構にインスパイアされた新しいジェイルブレイク手法を提案する。攻撃モデルは、ミッション転送を使用して、対話において有害なユーザ意図を隠蔽し、連鎖した物語のルアーを生成し、被害者モデルの推論能力を刺激する。我々の実験では、より弱い安全機構を持つモデルはより強力な攻撃能力を示し、モデルを活用できるだけでなく、他人を傷つける助けにもなることを示した。
論文参考訳（メタデータ） (2025-05-23T06:19:05Z)
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文参考訳（メタデータ） (2025-04-03T00:36:40Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Evaluating the Performance of Large Language Models in Scientific Claim Detection and Classification [0.0]
本研究では,Twitterのようなプラットフォーム上での誤情報を緩和する革新的な手法として,LLM(Large Language Models)の有効性を評価する。 LLMは、従来の機械学習モデルに関連する広範なトレーニングと過度に適合する問題を回避し、事前訓練された適応可能なアプローチを提供する。特定データセットを用いたLCMの性能の比較分析を行い、公衆衛生コミュニケーションへの応用のためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-21T05:02:26Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文参考訳（メタデータ） (2024-05-30T08:03:15Z)
Privacy Preserving Prompt Engineering: A Survey [14.402638881376419]
事前学習された言語モデル(PLM)は、広範囲の自然言語処理(NLP)タスクを解くのに非常に有能である。その結果、これらのモデルのサイズは近年顕著に拡大している。プライバシーに関する懸念は、広く使われている中で大きな障害となっている。
論文参考訳（メタデータ） (2024-04-09T04:11:25Z)
Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Towards Safer Large Language Models through Machine Unlearning [19.698620794387338]
SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
論文参考訳（メタデータ） (2024-02-15T16:28:34Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文参考訳（メタデータ） (2023-05-23T04:10:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。