論文の概要: Trojans in Artificial Intelligence (TrojAI) Final Report
- arxiv url: http://arxiv.org/abs/2602.07152v1
- Date: Fri, 06 Feb 2026 19:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.474622
- Title: Trojans in Artificial Intelligence (TrojAI) Final Report
- Title(参考訳): 人工知能(TrojAI)の最終報告
- Authors: Kristopher W. Reese, Taylor Kulp-McDowall, Michael Majurski, Tim Blattner, Derek Juba, Peter Bajcsy, Antonio Cardone, Philippe Dessauw, Alden Dima, Anthony J. Kearsley, Melinda Kleczynski, Joel Vasanth, Walid Keyrouz, Chace Ashcraft, Neil Fendley, Ted Staley, Trevor Stout, Josh Carney, Greg Canal, Will Redman, Aurora Schmidt, Cameron Hickert, William Paul, Jared Markowitz, Nathan Drenkow, David Shriver, Marissa Connor, Keltin Grimes, Marco Christiani, Hayden Moore, Jordan Widjaja, Kasimir Gabert, Uma Balakrishnan, Satyanadh Gundimada, John Jacobellis, Sandya Lakkur, Vitus Leung, Jon Roose, Casey Battaglino, Farinaz Koushanfar, Greg Fields, Xihe Gu, Yaman Jandali, Xinqiao Zhang, Akash Vartak, Tim Oates, Ben Erichson, Michael Mahoney, Rauf Izmailov, Xiangyu Zhang, Guangyu Shen, Siyuan Cheng, Shiqing Ma, XiaoFeng Wang, Haixu Tang, Di Tang, Xiaoyi Chen, Zihao Wang, Rui Zhu, Susmit Jha, Xiao Lin, Manoj Acharya, Wenchao Li, Chao Chen,
- Abstract要約: TrojAIは、現代の人工知能の新たな脆弱性、すなわちAIトロイの木馬の脅威に直面するために立ち上げられた。
TrojAIは、脅威の複雑な性質を把握し、基礎的な検出方法の先駆者となった。
報告書は、AIセキュリティ研究を進めるための教訓とレコメンデーションで締めくくっている。
- 参考スコア(独自算出の注目度): 52.6138928911574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Intelligence Advanced Research Projects Activity (IARPA) launched the TrojAI program to confront an emerging vulnerability in modern artificial intelligence: the threat of AI Trojans. These AI trojans are malicious, hidden backdoors intentionally embedded within an AI model that can cause a system to fail in unexpected ways, or allow a malicious actor to hijack the AI model at will. This multi-year initiative helped to map out the complex nature of the threat, pioneered foundational detection methods, and identified unsolved challenges that require ongoing attention by the burgeoning AI security field. This report synthesizes the program's key findings, including methodologies for detection through weight analysis and trigger inversion, as well as approaches for mitigating Trojan risks in deployed models. Comprehensive test and evaluation results highlight detector performance, sensitivity, and the prevalence of "natural" Trojans. The report concludes with lessons learned and recommendations for advancing AI security research.
- Abstract(参考訳): インテリジェンス・アドバンスト・リサーチ・プロジェクトズ・アクティビティ(IARPA)は、AIトロイの木馬の脅威という、現代の人工知能の新たな脆弱性に立ち向かうために、TrojAIプログラムを立ち上げた。
これらのAIトロイの木馬は悪意があり、意図的にAIモデルに埋め込まれており、システムが予期せぬ方法で失敗する可能性がある。
この複数年にわたるイニシアチブは、脅威の複雑な性質を把握し、基礎的検出方法の先駆者となり、急成長するAIセキュリティ分野の継続的な関心を必要とする未解決の課題を特定した。
本報告では, 重量分析およびインバージョンによる検出手法や, 展開モデルにおけるトロイの木馬のリスク軽減手法など, プログラムの主要な知見を合成する。
総合的な試験と評価の結果は、検出器の性能、感度、そして"自然な"トロイの木馬の有病率を強調している。
報告書は、AIセキュリティ研究を進めるための教訓とレコメンデーションで締めくくっている。
関連論文リスト
- TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models [67.06525001375722]
TrojanTOはTOモデルに対する最初のアクションレベルのバックドア攻撃である。
様々なタスクにバックドア攻撃を移植し、低い攻撃予算で目標を攻撃する。
TrojanTOはDT、GDT、DCに広く適用可能である。
論文 参考訳(メタデータ) (2025-06-15T11:27:49Z) - Runtime Detection of Adversarial Attacks in AI Accelerators Using Performance Counters [5.097354139604596]
本稿では,AIハードウェアの悪意ある使用に対する保護のための新しいフレームワークである佐村井を提案する。
Samurai氏は、AIモデルの動的振る舞いを追跡するAI Performance Counter(APC)を紹介している。
APCは、異なるAI操作の低レベルのハードウェアイベントのランタイムプロファイルを記録する。
APCが記録した要約情報は、TANTOによって処理され、潜在的なセキュリティ違反を効率的に識別する。
論文 参考訳(メタデータ) (2025-03-10T17:38:42Z) - Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - Artificial Intelligence as the New Hacker: Developing Agents for Offensive Security [0.0]
本稿では,人工知能(AI)の攻撃的サイバーセキュリティへの統合について検討する。
サイバー攻撃をシミュレートし実行するために設計された、自律的なAIエージェントであるReaperAIを開発している。
ReaperAIは、セキュリティ脆弱性を自律的に識別し、悪用し、分析する可能性を実証する。
論文 参考訳(メタデータ) (2024-05-09T18:15:12Z) - Trojan Detection in Large Language Models: Insights from The Trojan Detection Challenge [0.056247917037481096]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示しているが、トロイの木馬やバックドア攻撃に対する脆弱性は、重大なセキュリティリスクを引き起こす。
本稿では,トロイの木馬検出コンペティション2023(TDC2023)から得られた課題と知見について考察する。
本研究では,意図しないトリガーと意図しないトリガーの区別の難しさと,実世界のシナリオにおけるリバースエンジニアリングトロイの木馬の実現可能性について検討する。
論文 参考訳(メタデータ) (2024-04-21T13:31:16Z) - Review of Generative AI Methods in Cybersecurity [0.6990493129893112]
本稿では、Generative AI(GenAI)の現状について概観する。
暴行、脱獄、即時注射と逆心理学の応用をカバーしている。
また、サイバー犯罪におけるGenAIのさまざまな応用として、自動ハッキング、フィッシングメール、ソーシャルエンジニアリング、リバース暗号、攻撃ペイロードの作成、マルウェアの作成などを提供している。
論文 参考訳(メタデータ) (2024-03-13T17:05:05Z) - Asset-centric Threat Modeling for AI-based Systems [7.696807063718328]
本稿では、AI関連資産、脅威、対策、残留リスクの定量化のためのアプローチおよびツールであるThreatFinderAIを提案する。
このアプローチの実用性を評価するため、参加者はAIベースのヘルスケアプラットフォームのサイバーセキュリティ専門家によって開発された脅威モデルを再現するよう命じられた。
全体として、ソリューションのユーザビリティはよく認識され、脅威の識別とリスクの議論を効果的にサポートする。
論文 参考訳(メタデータ) (2024-03-11T08:40:01Z) - Towards more Practical Threat Models in Artificial Intelligence Security [66.67624011455423]
最近の研究で、人工知能のセキュリティの研究と実践のギャップが特定されている。
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
論文 参考訳(メタデータ) (2023-11-16T16:09:44Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。