Fugu-MT 論文翻訳(概要): A Multi-Turn Framework for Evaluating AI Misuse in Fraud and Cybercrime Scenarios

論文の概要: A Multi-Turn Framework for Evaluating AI Misuse in Fraud and Cybercrime Scenarios

arxiv url: http://arxiv.org/abs/2602.21831v2
Date: Tue, 03 Mar 2026 17:14:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 14:54:12.347193
Title: A Multi-Turn Framework for Evaluating AI Misuse in Fraud and Cybercrime Scenarios
Title（参考訳）: 不正・サイバー犯罪シナリオにおけるAI誤用評価のためのマルチTurnフレームワーク
Authors: Kimberly T. Mai, Anna Gausen, Magda Dubois, Mona Murad, Bessie O'Dell, Nadine Staes-Polet, Christopher Summerfield, Andrew Strait,
Abstract要約: 現在の大規模言語モデルが、複雑な犯罪活動に有用な情報を提供しているかは、不明である。我々は、ドメインの専門家が評価したように、モデルがWeb上で一般的に利用可能な情報を超えて実行可能な支援を提供するかどうかを評価する。その結果,(1)現在の大規模言語モデルは,高度なジェイルブレイク技術を用いることなく,詐欺やサイバー犯罪の最小限の情報を提供することがわかった。
参考スコア（独自算出の注目度）: 1.1864532555108382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI is increasingly being used to assist fraud and cybercrime. However, it is unclear the extent to which current large language models can provide useful information for complex criminal activity. Working with law enforcement and policy experts, we developed multi-turn evaluations for three fraud and cybercrime scenarios (romance scams, CEO impersonation, and identity theft). Our evaluations focus on text-to-text interactions. In each scenario, we evaluate whether models provide actionable assistance beyond information typically available on the web, as assessed by domain experts. We do so in ways designed to resemble real-world misuse, such as breaking down requests for fraud into a sequence of seemingly benign queries. We found that (1) current large language models provide minimal actionable information for fraud and cybercrime without the use of advanced jailbreaking techniques, (2) model safeguards have significant impact on the provision of information, with the two open-weight large language models fine-tuned to remove safety guardrails providing the most actionable and useful responses, and (3) decomposing requests into benign-seeming queries elicited more assistance than explicitly malicious framing or basic system-level jailbreaks. Overall, the results suggest that current text-generation models provide relatively minimal uplift for fraud and cybercrime through information provision, without extensive effort to circumvent safeguards. This work contributes a reproducible, expert-grounded framework for tracking how these risks may evolve with time as models grow more capable and adversaries adapt.
Abstract（参考訳）: AIはますます、詐欺やサイバー犯罪の支援に使われている。しかし、現在の大規模言語モデルが複雑な犯罪活動に有用な情報を提供しているかは明らかでない。法執行機関や政策の専門家と協力し、3つの詐欺・サイバー犯罪シナリオ(恋愛詐欺、CEOの偽装、身元確認盗難)のマルチターン評価を開発した。評価はテキスト間インタラクションに焦点をあてる。各シナリオにおいて、ドメインの専門家が評価したように、モデルがWeb上で一般的に利用可能な情報を超えて実行可能な補助を提供するかどうかを評価する。私たちは現実世界の誤用に類似するように設計された方法で、詐欺の要求を、一見良心的なクエリのシーケンスに分解するなどしています。その結果,(1)先進的ジェイルブレイク技術を用いずに,詐欺やサイバー犯罪の最小限の情報を提供し,(2)モデルセーフガードが情報提供に多大な影響を与え,(2)オープンウェイトな2つの大規模言語モデルが安全ガードレールを微細に調整し,最も行動的で有用な応答を提供するとともに,(3)明確な悪意あるフレーミングや基本的なシステムレベルのジェイルブレイクよりも支援を招いた良質なクエリに要求を分解することがわかった。その結果,現行のテキスト生成モデルは,情報提供を通じての不正行為やサイバー犯罪に対する比較的最小限の隆起を,保護を回避するための広範囲な努力を伴わないことが示唆された。この研究は、モデルがより有能になり、敵が適応するにつれて、これらのリスクが時間とともにどのように進化するかを追跡する、再現可能な専門家主導のフレームワークに寄与する。

関連論文リスト

Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。 20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文参考訳（メタデータ） (2026-02-23T16:28:48Z)
VirtualCrime: Evaluating Criminal Potential of Large Language Models via Sandbox Simulation [10.613890248478189]
大規模言語モデル(LLM)は、多段階の意思決定、計画、行動において強力な能力を示している。その強い問題解決能力が犯罪に悪用されるかどうかが問題である。本稿では,3エージェントシステムに基づくサンドボックスシミュレーションフレームワークであるVirtualCrimeを提案する。
論文参考訳（メタデータ） (2026-01-20T13:59:53Z)
PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities [42.61805002268063]
我々は,実践的なAIサイバー探索ベンチマークであるPACEbenchを紹介する。 PACEbenchは、シングル、ブレンド、チェーン、防御脆弱性のエクスプロイトにまたがる4つのシナリオで構成されている。 PACEagentは,多相偵察,解析,利用の支援により,ヒトの浸透試験をエミュレートする新しいエージェントである。
論文参考訳（メタデータ） (2025-10-13T17:50:25Z)
An Unsupervised Learning Approach For A Reliable Profiling Of Cyber Threat Actors Reported Globally Based On Complete Contextual Information Of Cyber Attacks [0.0]
サイバー攻撃を迅速に認識し、それらに対する強力な防御機構を確立することが重要である。サイバーアタックアクターの特徴や行動パターンに基づいて、サイバーアタックアクターのプロファイルを作成することは、サイバーアタックに対する効果的な防御を前もって作成するのに役立ちます。本稿では,サイバー犯罪集団をプロファイリングするための非教師なし効率的な階層クラスタリング手法を提案する。
論文参考訳（メタデータ） (2025-09-15T08:32:59Z)
A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文参考訳（メタデータ） (2025-08-20T19:49:59Z)
The Application of Transformer-Based Models for Predicting Consequences of Cyber Attacks [0.4604003661048266]
脅威モデリング(Threat Modeling)は、サイバーセキュリティの専門家に重要なサポートを提供し、タイムリーに行動し、他の場所で使用可能なリソースを割り当てることを可能にする。近年,攻撃記述の評価やサイバー攻撃の今後の結果を予測するための自動手法の必要性が高まっている。本研究では,NLP(Natural Language Processing)とディープラーニング(Deep Learning)がサイバー攻撃の潜在的影響を分析するためにどのように応用できるかを検討する。
論文参考訳（メタデータ） (2025-08-18T15:46:36Z)
A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models [39.58317527488534]
3つの主要なステークホルダーに対する潜在的な脅威を同時に評価する新しいリスク評価指標を提案する。メトリクスを検証するために、脆弱性テスト用のオープンソースのフレームワークであるGarakを活用しています。その結果、セキュアで信頼性の高いAI駆動会話システムの運用における多次元リスクアセスメントの重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-07T20:26:45Z)
T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文参考訳（メタデータ） (2025-04-22T01:18:42Z)
OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文参考訳（メタデータ） (2025-02-18T19:33:14Z)
Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文参考訳（メタデータ） (2025-02-02T03:39:43Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文参考訳（メタデータ） (2024-01-27T08:09:33Z)
Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-03-01T22:58:50Z)
Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文参考訳（メタデータ） (2020-09-16T14:13:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。