Fugu-MT 論文翻訳(概要): A Multi-Turn Framework for Evaluating AI Misuse in Fraud and Cybercrime Scenarios

論文の概要: A Multi-Turn Framework for Evaluating AI Misuse in Fraud and Cybercrime Scenarios

arxiv url: http://arxiv.org/abs/2602.21831v1
Date: Wed, 25 Feb 2026 12:01:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.822119
Title: A Multi-Turn Framework for Evaluating AI Misuse in Fraud and Cybercrime Scenarios
Title（参考訳）: 不正・サイバー犯罪シナリオにおけるAI誤用評価のためのマルチTurnフレームワーク
Authors: Kimberly T. Mai, Anna Gausen, Magda Dubois, Mona Murad, Bessie O'Dell, Nadine Staes-Polet, Christopher Summerfield, Andrew Strait,
Abstract要約: 現在の大規模言語モデルが複雑な犯罪活動を支援するかどうかは不明である。詐欺とサイバー犯罪の3つのシナリオについて評価を行った。その結果,テキスト生成モデルのリスクは比較的小さいことが示唆された。
参考スコア（独自算出の注目度）: 1.1864532555108382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI is increasingly being used to assist fraud and cybercrime. However, it is unclear whether current large language models can assist complex criminal activity. Working with law enforcement and policy experts, we developed multi-turn evaluations for three fraud and cybercrime scenarios (romance scams, CEO impersonation, and identity theft). Our evaluations focused on text-to-text model capabilities. In each scenario, we measured model capabilities in ways designed to resemble real-world misuse, such as breaking down requests for fraud into a sequence of seemingly benign queries, and measuring whether models provide actionable information, relative to a standard web search baseline. We found that (1) current large language models provide minimal practical assistance with complex criminal activity, (2) open-weight large language models fine-tuned to remove safety guardrails provided substantially more help, and (3) decomposing requests into benign-seeming queries elicited more assistance than explicitly malicious framing or system-level jailbreaks. Overall, the results suggest that current risks from text-generation models are relatively minimal. However, this work contributes a reproducible, expert-grounded framework for tracking how these risks may evolve with time as models grow more capable and adversaries adapt.
Abstract（参考訳）: AIはますます、詐欺やサイバー犯罪の支援に使われている。しかし、現在の大規模言語モデルが複雑な犯罪活動を支援できるかどうかは不明である。法執行機関や政策の専門家と協力し、3つの詐欺・サイバー犯罪シナリオ(恋愛詐欺、CEOの偽装、身元確認盗難)のマルチターン評価を開発した。評価はテキスト・ツー・テキスト・モデル機能に焦点をあてた。それぞれのシナリオにおいて,実世界の誤用に類似したモデル機能の測定を行った。例えば,不正要求を不明瞭なクエリのシーケンスに分解したり,モデルが標準的なWeb検索ベースラインに対して実行可能な情報を提供するかどうかを測定したりする。その結果,(1)現在の大規模言語モデルでは,複雑な犯罪行為に対する最小限の支援が得られ,(2)オープンウェイトな大規模言語モデルでは安全ガードレールの除去が大幅に促進され,(3)悪質なフレーミングやシステムレベルのジェイルブレイクよりも,要求を良質な問合せに分解することが示唆された。その結果,テキスト生成モデルのリスクは比較的小さいことが示唆された。しかしながら、この研究は、モデルがより有能になり、敵が適応するにつれて、これらのリスクが時間とともにどのように進化していくかを追跡する、再現可能な専門家主導のフレームワークに寄与する。

関連論文リスト

VirtualCrime: Evaluating Criminal Potential of Large Language Models via Sandbox Simulation [10.613890248478189]
大規模言語モデル(LLM)は、多段階の意思決定、計画、行動において強力な能力を示している。その強い問題解決能力が犯罪に悪用されるかどうかが問題である。本稿では,3エージェントシステムに基づくサンドボックスシミュレーションフレームワークであるVirtualCrimeを提案する。
論文参考訳（メタデータ） (2026-01-20T13:59:53Z)
PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities [42.61805002268063]
我々は,実践的なAIサイバー探索ベンチマークであるPACEbenchを紹介する。 PACEbenchは、シングル、ブレンド、チェーン、防御脆弱性のエクスプロイトにまたがる4つのシナリオで構成されている。 PACEagentは,多相偵察,解析,利用の支援により,ヒトの浸透試験をエミュレートする新しいエージェントである。
論文参考訳（メタデータ） (2025-10-13T17:50:25Z)
A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models [39.58317527488534]
3つの主要なステークホルダーに対する潜在的な脅威を同時に評価する新しいリスク評価指標を提案する。メトリクスを検証するために、脆弱性テスト用のオープンソースのフレームワークであるGarakを活用しています。その結果、セキュアで信頼性の高いAI駆動会話システムの運用における多次元リスクアセスメントの重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-07T20:26:45Z)
T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文参考訳（メタデータ） (2025-04-22T01:18:42Z)
OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文参考訳（メタデータ） (2025-02-18T19:33:14Z)
Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文参考訳（メタデータ） (2025-02-02T03:39:43Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文参考訳（メタデータ） (2024-01-27T08:09:33Z)
Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-03-01T22:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。