論文の概要: Supervision policies can shape long-term risk management in general-purpose AI models
- arxiv url: http://arxiv.org/abs/2501.06137v1
- Date: Fri, 10 Jan 2025 17:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:34.858515
- Title: Supervision policies can shape long-term risk management in general-purpose AI models
- Title(参考訳): スーパービジョンポリシーは、汎用AIモデルにおける長期的なリスク管理を形作る
- Authors: Manuel Cebrian, Emilia Gomez, David Fernandez Llorca,
- Abstract要約: 本研究では,リスク,インシデント,あるいはハザード報告のエコシステムの多様な状況から抽出された特徴をパラメータ化したシミュレーションフレームワークを開発する。
リスクタイプを包括的に網羅した高優先度リスクのバランスをとる)非優先順位付け(優先、優先)、ランダム選択、優先度付け(優先)、多様性優先(優先)の4つの政策を評価する。
以上の結果から, 優先的かつ多様性優先的な政策は, 高影響リスク軽減に有効であるが, より広範なコミュニティが報告した制度的問題を無視している可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid proliferation and deployment of General-Purpose AI (GPAI) models, including large language models (LLMs), present unprecedented challenges for AI supervisory entities. We hypothesize that these entities will need to navigate an emergent ecosystem of risk and incident reporting, likely to exceed their supervision capacity. To investigate this, we develop a simulation framework parameterized by features extracted from the diverse landscape of risk, incident, or hazard reporting ecosystems, including community-driven platforms, crowdsourcing initiatives, and expert assessments. We evaluate four supervision policies: non-prioritized (first-come, first-served), random selection, priority-based (addressing the highest-priority risks first), and diversity-prioritized (balancing high-priority risks with comprehensive coverage across risk types). Our results indicate that while priority-based and diversity-prioritized policies are more effective at mitigating high-impact risks, particularly those identified by experts, they may inadvertently neglect systemic issues reported by the broader community. This oversight can create feedback loops that amplify certain types of reporting while discouraging others, leading to a skewed perception of the overall risk landscape. We validate our simulation results with several real-world datasets, including one with over a million ChatGPT interactions, of which more than 150,000 conversations were identified as risky. This validation underscores the complex trade-offs inherent in AI risk supervision and highlights how the choice of risk management policies can shape the future landscape of AI risks across diverse GPAI models used in society.
- Abstract(参考訳): 大規模言語モデル(LLM)を含む汎用AI(GPAI)モデルの急速な普及と展開は、AIスーパーバイザリエンティティに対する前例のない課題を提示している。
これらの組織は、リスクとインシデント報告の創発的なエコシステムをナビゲートする必要がある、という仮説を立てています。
そこで我々は,コミュニティ主導型プラットフォーム,クラウドソーシング,エキスパートアセスメントなど,リスク,インシデント,あるいはハザード報告の多様な環境から抽出した特徴をパラメータ化したシミュレーションフレームワークを開発した。
リスクタイプを包括的に網羅した高優先度リスクのバランスをとることで、非優先順位付け(優先、優先)、ランダム選択、優先度付け(優先)、多様性優先(優先)の4つの政策を評価する。
以上の結果から, 優先的かつ多様性優先的な政策は, 高影響リスク, 特に専門家が認識したリスクを緩和する上で, より広範なコミュニティが報告したシステム上の問題を不注意に無視する可能性が示唆された。
この監視によってフィードバックループが作成され、特定の種類の報告を増幅し、他人を嫌がらせ、全体的なリスクの景観を歪んだ認識に繋がる。
シミュレーション結果を、100万以上のChatGPTインタラクションを含む複数の実世界のデータセットで検証し、そのうち15万以上の会話が危険であると認識された。
この検証は、AIリスク監視に固有の複雑なトレードオフを強調し、リスク管理ポリシーの選択が、社会で使用されるさまざまなGPAIモデルにまたがるAIリスクの将来の展望をどのように形成するかを強調している。
関連論文リスト
- Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Privacy Risks of General-Purpose AI Systems: A Foundation for Investigating Practitioner Perspectives [47.17703009473386]
強力なAIモデルによって、幅広いタスクでパフォーマンスが飛躍的に向上した。
プライバシの懸念は、さまざまなプライバシのリスクとAIモデルの脆弱性をカバーした、豊富な文献につながっている。
我々はこれらの調査論文の体系的なレビューを行い、GPAISにおけるプライバシーリスクの簡潔かつ有用な概観を提供する。
論文 参考訳(メタデータ) (2024-07-02T07:49:48Z) - AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies [88.32153122712478]
我々は4階層の分類に分類された314のユニークなリスクカテゴリを特定した。
最高レベルでは、この分類はシステム・アンド・オペレーショナル・リスク、コンテンツ・セーフティ・リスク、社会的なリスク、法と権利のリスクを含む。
我々は、セクター間の情報共有と、生成型AIモデルとシステムのリスク軽減におけるベストプラクティスの推進を通じて、AIの安全性を向上することを目指している。
論文 参考訳(メタデータ) (2024-06-25T18:13:05Z) - Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。
この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文 参考訳(メタデータ) (2024-05-14T13:37:36Z) - AI and the Iterable Epistopics of Risk [1.26404863283601]
AIが社会に提示するリスクは、一般的な計算によって管理可能であると広く理解されている。
本稿では、規制当局、開発者、サイバーセキュリティの専門家によるリスクの把握と管理について詳述する。
論文 参考訳(メタデータ) (2024-04-29T13:33:22Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - AI Risk Profiles: A Standards Proposal for Pre-Deployment AI Risk
Disclosures [0.8702432681310399]
下流の意思決定をガイドできるリスクプロファイリング標準を提案する。
この基準は、提案したAIリスクの分類に基づいており、文献で提案されるさまざまなリスクの高度な分類を反映している。
我々はこの方法論を,公開情報を用いた多数の著名なAIシステムに適用する。
論文 参考訳(メタデータ) (2023-09-22T20:45:15Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。
リスクは技術コミュニティのメトリクスを使って定量化できます。
本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z) - Actionable Guidance for High-Consequence AI Risk Management: Towards
Standards Addressing AI Catastrophic Risks [12.927021288925099]
人工知能(AI)システムは、社会規模で非常に高い、または破滅的な結果をもたらす事象のリスクを提示することができる。
NISTはAIリスク評価と管理に関する自主的なガイダンスとして、AI RMF(AI Artificial Intelligence Risk Management Framework)を開発している。
我々は、非常に高い、または破滅的な結果のイベントのリスクを特定し、管理することに焦点を当てた、行動可能なガイダンスの詳細な推奨を提供する。
論文 参考訳(メタデータ) (2022-06-17T18:40:41Z) - Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification [32.9142708692264]
本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。
まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。
第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
論文 参考訳(メタデータ) (2022-04-21T01:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。