論文の概要: RealHarm: A Collection of Real-World Language Model Application Failures
- arxiv url: http://arxiv.org/abs/2504.10277v1
- Date: Mon, 14 Apr 2025 14:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:56:18.417913
- Title: RealHarm: A Collection of Real-World Language Model Application Failures
- Title(参考訳): RealHarm: 実世界の言語モデルアプリケーションの失敗のコレクション
- Authors: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora,
- Abstract要約: 我々は、AIエージェントとの注釈付き問題相互作用のデータセットであるRealHarmを紹介する。
我々は、特にデプロイ者の視点から、害、原因、危険を分析します。
我々は,現状のガードレールとコンテンツモデレーションシステムを評価し,そのようなシステムが事故を防いだかどうかを調査した。
- 参考スコア(独自算出の注目度): 1.2820953788225848
- License:
- Abstract: Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer's perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.
- Abstract(参考訳): コンシューマ向けアプリケーションにおける言語モデルデプロイメントには、多くのリスクが伴う。
このような応用の害と危険に関する既存の研究は、規制の枠組みや理論的な分析から導かれたトップダウンのアプローチに従っているが、現実世界の障害モードの実証的な証拠はいまだに探索されていない。
本稿では,公に報告されたインシデントに関する体系的なレビューから構築されたAIエージェントとの注釈付き問題のあるインタラクションのデータセットであるRealHarmを紹介する。
デプロイ者の立場から特に危害、原因、ハザードを分析すると、評判のダメージが組織的な害の主要な原因となるのに対し、誤報は最も一般的なハザードカテゴリとして現れる。
我々は、現状のガードレールとコンテンツモデレーションシステムを実証的に評価し、そのようなシステムがインシデントを阻止したかどうかを調査し、AIアプリケーションの保護に重大なギャップがあることを明らかにした。
関連論文リスト
- Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索データベースに注入された悪意のあるパスが、モデルを誤誘導し、事実的に誤ったアウトプットを発生させるような、敵の毒殺攻撃に弱い。
本稿では,RAGシステムの検索と生成の両要素について検討し,攻撃に対するロバスト性を高める方法について考察する。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - A Formal Framework for Assessing and Mitigating Emergent Security Risks in Generative AI Models: Bridging Theory and Dynamic Risk Mitigation [0.3413711585591077]
大規模言語モデル(LLM)や拡散モデルを含む生成AIシステムが急速に進歩するにつれ、その採用が増加し、新たな複雑なセキュリティリスクがもたらされた。
本稿では,これらの突発的なセキュリティリスクを分類・緩和するための新しい形式的枠組みを提案する。
我々は、潜時空間利用、マルチモーダル・クロスアタック・ベクター、フィードバックループによるモデル劣化など、未探索のリスクを特定した。
論文 参考訳(メタデータ) (2024-10-15T02:51:32Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - A taxonomic system for failure cause analysis of open source AI
incidents [6.85316573653194]
この研究は、AIID(AI Incident Database)におけるインシデントの集団に専門家の知識を適用する方法を示し、報告された障害や損害に寄与する潜在的な技術的因果関係を推測する。
本稿では,システム目標(ほぼ常に知られている)から手法/技術(多くの場合は理解できない),および関連するシステムの技術的障害原因(専門家分析の対象)まで,関連要因のカスケードをカバーする分類システムについて概説する。
論文 参考訳(メタデータ) (2022-11-14T11:21:30Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Overcoming Failures of Imagination in AI Infused System Development and
Deployment [71.9309995623067]
NeurIPS 2020は研究論文に「潜在的な悪用と失敗の結果」に関するインパクトステートメントを含むよう要求した。
我々は、害の枠組みは文脈に適応し、潜在的な利害関係者、システム余裕、および最も広い意味での害を評価するための実行可能なプロキシを考える必要があると論じている。
論文 参考訳(メタデータ) (2020-11-26T18:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。