Fugu-MT 論文翻訳(概要): When AI Fails, What Works? A Data-Driven Taxonomy of Real-World AI Risk Mitigation Strategies

論文の概要: When AI Fails, What Works? A Data-Driven Taxonomy of Real-World AI Risk Mitigation Strategies

arxiv url: http://arxiv.org/abs/2603.04259v1
Date: Wed, 04 Mar 2026 16:46:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.408052
Title: When AI Fails, What Works? A Data-Driven Taxonomy of Real-World AI Risk Mitigation Strategies
Title（参考訳）: AIが失敗したら、何が機能するのか? 現実世界のAIリスク軽減戦略のデータ駆動分類
Authors: Evgenija Popchanovska, Ana Gjorgjevikj, Maryan Rizinski, Lubomir Chitkushev, Irena Vodenska, Dimitar Trajanov,
Abstract要約: 我々は、実世界のAIインシデント報告と緩和行動を分析し、経験的に根ざした分類を導き出す。メディア報告された9,705件のAIインシデント記事の統合コーパスを用いて、6,893件のテキストから明示的な緩和アクションを抽出する。分類学では,(1)矯正・規制行動,(2)法・規制強化行動,(3)金融・経済・市場管理,(4)回避・否定の4つの新たなカテゴリーを紹介している。
参考スコア（独自算出の注目度）: 0.04736448323490553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly embedded in high-stakes workflows, where failures propagate beyond isolated model errors into systemic breakdowns that can lead to legal exposure, reputational damage, and material financial losses. Building on this shift from model-centric risks to end-to-end system vulnerabilities, we analyze real-world AI incident reporting and mitigation actions to derive an empirically grounded taxonomy that links failure dynamics to actionable interventions. Using a unified corpus of 9,705 media-reported AI incident articles, we extract explicit mitigation actions from 6,893 texts via structured prompting and then systematically classify responses to extend MIT's AI Risk Mitigation Taxonomy. Our taxonomy introduces four new mitigation categories, including 1) Corrective and Restrictive Actions, 2) Legal/Regulatory and Enforcement Actions, 3) Financial, Economic, and Market Controls, and 4) Avoidance and Denial, capturing response patterns that are becoming increasingly prevalent as AI deployment and regulation evolve. Quantitatively, we label the mitigation dataset with 32 distinct labels, producing 23,994 label assignments; 9,629 of these reflect previously unseen mitigation patterns, yielding a 67% increase of the original subcategory coverage and substantially enhancing the taxonomy's applicability to emerging systemic failure modes. By structuring incident responses, the paper strengthens "diagnosis-to-prescription" guidance and advances continuous, taxonomy-aligned post-deployment monitoring to prevent cascading incidents and downstream impact.
Abstract（参考訳）: 大規模言語モデル(LLM)は、分離されたモデルエラーを越えて、法的な露出、評判のダメージ、物質的損失につながるようなシステム的なブレークダウンへと障害が伝播する、ハイステークなワークフローにますます組み込まれている。モデル中心のリスクからエンドツーエンドのシステム脆弱性へのこのシフトに基づいて、現実のAIインシデントレポートと緩和行動を分析し、障害のダイナミクスを行動可能な介入にリンクする経験的に根ざした分類を導出します。 9,705件のメディア報告されたAIインシデント記事の統一コーパスを用いて、構造化プロンプトを通じて6,893件のテキストから明示的な緩和アクションを抽出し、その後、MITのAIリスク軽減分類を拡張するために、応答を体系的に分類する。我々の分類学は4つの新しい緩和カテゴリーを導入している。 1)訂正及び制限措置 2 法・規制及び施行措置 3【金融・経済・市場管理】 4)AIのデプロイメントと規制の進化に伴って、ますます広まりつつある応答パターンをキャプチャする回避と否定。定量的には、32のラベルで緩和データセットをラベル付けし、23,994のラベル割り当てを生成し、これらのうち9,629は、以前は目に見えなかった緩和パターンを反映し、元のサブカテゴリのカバレッジを67%増加させ、新たなシステム障害モードへの分類学の適用性を著しく高めている。インシデント対応の構築により, 診断・処方指導を強化し, 連続的, 分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類・分類のモニタリングを推進し, カスケード・インシデントや下流への影響を防止した。

関連論文リスト

Mapping AI Risk Mitigations: Evidence Scan and Preliminary AI Risk Mitigation Taxonomy [35.22340964134219]
AIリスク軽減フレームワークの展望は断片化され、一貫性のない用語を使用し、カバレッジにギャップがある。本稿では、AIリスク軽減のための予備的なAIリスク軽減分類を導入し、共通の参照枠を提供する。この分類法は、2023年から2025年の間に発行された13のAIリスク軽減フレームワークの素早いエビデンススキャンによって開発された。
論文参考訳（メタデータ） (2025-12-12T03:26:29Z)
Standardized Threat Taxonomy for AI Security, Governance, and Regulatory Compliance [0.0]
ランゲージ障壁」は、現在、アルゴリズム上の脆弱性に焦点を当てた技術セキュリティチームと、規制義務に対処する法律やコンプライアンスの専門家を分離している。本研究は、量的リスクアセスメント(QRA)のために明示的に設計された構造的オントロジーであるAIシステム脅威ベクトル分類法を提案する。このフレームワークは、AI固有のリスクを9つの重要なドメインに分類する: ミスス、ポジショニング、プライバシ、アドリアム、バイアス、信頼できないアウトプット、ドリフト、サプライチェーン、IPThreat。
論文参考訳（メタデータ） (2025-11-26T20:42:46Z)
From Narrow Unlearning to Emergent Misalignment: Causes, Consequences, and Containment in LLMs [51.800006486987435]
特定領域での未学習を狭くすることで,創発的不適応が生じる可能性が示唆された。我々の研究は、狭義のドメインアンラーニングが対象のコンセプトに対するコンプライアンス応答をもたらすことを示しているが、EMAを無関係のドメインに広めることもできる。
論文参考訳（メタデータ） (2025-11-18T00:53:23Z)
Enhancing reliability in AI inference services: An empirical study on real production incidents [6.549475714716768]
本稿では,大規模言語モデル(LLM)推論インシデントに関する最初のプロバイダ間,実践ベースの分析手法を提案する。我々は1年間の運用経験に基づく分類と方法論を開発し、156件の高重度事象を検証した。本研究は,推論操作の系統的,経験的基礎解析が,大規模で信頼性が高く,コスト効率のよいLLMサービスを実現する方法を示す。
論文参考訳（メタデータ） (2025-10-17T23:16:29Z)
CORTEX: Composite Overlay for Risk Tiering and Exposure in Operational AI Systems [0.812761334568906]
本稿では,AIシステムの脆弱性を評価し,評価する多層リスクスコアリングフレームワークであるCORTEXを紹介する。 AIインシデントデータベース(AIID)に記録された1200件以上のインシデントを実証分析した。結果として得られる複合スコアは、AIリスクレジスタ、モデル監査、適合性チェック、動的ガバナンスダッシュボード間で運用することができる。
論文参考訳（メタデータ） (2025-08-24T07:30:25Z)
Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models [0.0]
我々は、最先端の言語モデルが、注意深く構築された会話シナリオに対して脆弱であることを示します。 10の攻撃シナリオが成功し、現在のアライメント手法が物語の没入、感情的なプレッシャー、戦略的フレーミングをどのように扱うかに根本的な脆弱性が明らかになった。汎用性を検証するため,自動評価フレームワークMISALIGNMENTBENCHに手動攻撃を行った。
論文参考訳（メタデータ） (2025-08-06T08:25:40Z)
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [91.55634905861827]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文参考訳（メタデータ） (2025-05-27T15:42:46Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:16Z)
FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文参考訳（メタデータ） (2024-03-26T08:51:23Z)
Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文参考訳（メタデータ） (2023-12-18T05:42:31Z)
Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。この攻撃は、主張のポストホックな修正に対しても堅牢である。これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-09-07T13:39:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。