論文の概要: Supervision policies can shape long-term risk management in general-purpose AI models
- arxiv url: http://arxiv.org/abs/2501.06137v1
- Date: Fri, 10 Jan 2025 17:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:34.858515
- Title: Supervision policies can shape long-term risk management in general-purpose AI models
- Title(参考訳): スーパービジョンポリシーは、汎用AIモデルにおける長期的なリスク管理を形作る
- Authors: Manuel Cebrian, Emilia Gomez, David Fernandez Llorca,
- Abstract要約: 本研究では,リスク,インシデント,あるいはハザード報告のエコシステムの多様な状況から抽出された特徴をパラメータ化したシミュレーションフレームワークを開発する。
リスクタイプを包括的に網羅した高優先度リスクのバランスをとる)非優先順位付け(優先、優先)、ランダム選択、優先度付け(優先)、多様性優先(優先)の4つの政策を評価する。
以上の結果から, 優先的かつ多様性優先的な政策は, 高影響リスク軽減に有効であるが, より広範なコミュニティが報告した制度的問題を無視している可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid proliferation and deployment of General-Purpose AI (GPAI) models, including large language models (LLMs), present unprecedented challenges for AI supervisory entities. We hypothesize that these entities will need to navigate an emergent ecosystem of risk and incident reporting, likely to exceed their supervision capacity. To investigate this, we develop a simulation framework parameterized by features extracted from the diverse landscape of risk, incident, or hazard reporting ecosystems, including community-driven platforms, crowdsourcing initiatives, and expert assessments. We evaluate four supervision policies: non-prioritized (first-come, first-served), random selection, priority-based (addressing the highest-priority risks first), and diversity-prioritized (balancing high-priority risks with comprehensive coverage across risk types). Our results indicate that while priority-based and diversity-prioritized policies are more effective at mitigating high-impact risks, particularly those identified by experts, they may inadvertently neglect systemic issues reported by the broader community. This oversight can create feedback loops that amplify certain types of reporting while discouraging others, leading to a skewed perception of the overall risk landscape. We validate our simulation results with several real-world datasets, including one with over a million ChatGPT interactions, of which more than 150,000 conversations were identified as risky. This validation underscores the complex trade-offs inherent in AI risk supervision and highlights how the choice of risk management policies can shape the future landscape of AI risks across diverse GPAI models used in society.
- Abstract(参考訳): 大規模言語モデル(LLM)を含む汎用AI(GPAI)モデルの急速な普及と展開は、AIスーパーバイザリエンティティに対する前例のない課題を提示している。
これらの組織は、リスクとインシデント報告の創発的なエコシステムをナビゲートする必要がある、という仮説を立てています。
そこで我々は,コミュニティ主導型プラットフォーム,クラウドソーシング,エキスパートアセスメントなど,リスク,インシデント,あるいはハザード報告の多様な環境から抽出した特徴をパラメータ化したシミュレーションフレームワークを開発した。
リスクタイプを包括的に網羅した高優先度リスクのバランスをとることで、非優先順位付け(優先、優先)、ランダム選択、優先度付け(優先)、多様性優先(優先)の4つの政策を評価する。
以上の結果から, 優先的かつ多様性優先的な政策は, 高影響リスク, 特に専門家が認識したリスクを緩和する上で, より広範なコミュニティが報告したシステム上の問題を不注意に無視する可能性が示唆された。
この監視によってフィードバックループが作成され、特定の種類の報告を増幅し、他人を嫌がらせ、全体的なリスクの景観を歪んだ認識に繋がる。
シミュレーション結果を、100万以上のChatGPTインタラクションを含む複数の実世界のデータセットで検証し、そのうち15万以上の会話が危険であると認識された。
この検証は、AIリスク監視に固有の複雑なトレードオフを強調し、リスク管理ポリシーの選択が、社会で使用されるさまざまなGPAIモデルにまたがるAIリスクの将来の展望をどのように形成するかを強調している。
関連論文リスト
- Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - A Taxonomy of Systemic Risks from General-Purpose AI [2.5956465292067867]
我々は、システム的リスクを、社会全体や経済に影響を及ぼす大規模な脅威と見なしている。
システム的リスクの主な源は、知識ギャップ、害を認識するための課題、そしてAI開発における予測不可能な軌道から生まれる。
本稿では,汎用AIの大規模負の社会的影響を理解し,対処するための構造的基盤を提供することで,AIの安全性研究に寄与する。
論文 参考訳(メタデータ) (2024-11-24T22:16:18Z) - Effective Mitigations for Systemic Risks from General-Purpose AI [9.39718128736321]
AIの安全性、重要なインフラ、民主的プロセス、化学、生物学的、放射線学、核リスク(CBRN)、差別と偏見にまたがる専門知識を持つ76人の専門家を調査した。
リスク軽減対策は,様々なシステム的リスクを低減し,ドメインの専門家が技術的に実現可能であると認識されている。
安全インシデント報告とセキュリティ情報共有、サードパーティのデプロイ前モデル監査、デプロイ前リスク評価の3つの対策が注目されている。
論文 参考訳(メタデータ) (2024-11-14T22:39:25Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Privacy Risks of General-Purpose AI Systems: A Foundation for Investigating Practitioner Perspectives [47.17703009473386]
強力なAIモデルによって、幅広いタスクでパフォーマンスが飛躍的に向上した。
プライバシの懸念は、さまざまなプライバシのリスクとAIモデルの脆弱性をカバーした、豊富な文献につながっている。
我々はこれらの調査論文の体系的なレビューを行い、GPAISにおけるプライバシーリスクの簡潔かつ有用な概観を提供する。
論文 参考訳(メタデータ) (2024-07-02T07:49:48Z) - AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies [88.32153122712478]
我々は4階層の分類に分類された314のユニークなリスクカテゴリを特定した。
最高レベルでは、この分類はシステム・アンド・オペレーショナル・リスク、コンテンツ・セーフティ・リスク、社会的なリスク、法と権利のリスクを含む。
我々は、セクター間の情報共有と、生成型AIモデルとシステムのリスク軽減におけるベストプラクティスの推進を通じて、AIの安全性を向上することを目指している。
論文 参考訳(メタデータ) (2024-06-25T18:13:05Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。
リスクは技術コミュニティのメトリクスを使って定量化できます。
本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z) - Actionable Guidance for High-Consequence AI Risk Management: Towards
Standards Addressing AI Catastrophic Risks [12.927021288925099]
人工知能(AI)システムは、社会規模で非常に高い、または破滅的な結果をもたらす事象のリスクを提示することができる。
NISTはAIリスク評価と管理に関する自主的なガイダンスとして、AI RMF(AI Artificial Intelligence Risk Management Framework)を開発している。
我々は、非常に高い、または破滅的な結果のイベントのリスクを特定し、管理することに焦点を当てた、行動可能なガイダンスの詳細な推奨を提供する。
論文 参考訳(メタデータ) (2022-06-17T18:40:41Z) - Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification [32.9142708692264]
本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。
まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。
第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
論文 参考訳(メタデータ) (2022-04-21T01:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。