論文の概要: AI Safety for Everyone
- arxiv url: http://arxiv.org/abs/2502.09288v2
- Date: Fri, 14 Feb 2025 16:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:04.997351
- Title: AI Safety for Everyone
- Title(参考訳): 誰でも使えるAIの安全性
- Authors: Balint Gyevnar, Atoosa Kasirzadeh,
- Abstract要約: AIの安全性に関する最近の議論と研究は、AIの安全性と高度なAIシステムからの現実的リスクとの深いつながりを強調している。
このフレーミングは、AIの安全性にコミットしているが、異なる角度から分野にアプローチする研究者や実践者を排除する可能性がある。
私たちは、現在のAIシステムに対する即時的で実践的な懸念に対処する、数多くの具体的な安全作業を見つけました。
- 参考スコア(独自算出の注目度): 3.440579243843689
- License:
- Abstract: Recent discussions and research in AI safety have increasingly emphasized the deep connection between AI safety and existential risk from advanced AI systems, suggesting that work on AI safety necessarily entails serious consideration of potential existential threats. However, this framing has three potential drawbacks: it may exclude researchers and practitioners who are committed to AI safety but approach the field from different angles; it could lead the public to mistakenly view AI safety as focused solely on existential scenarios rather than addressing a wide spectrum of safety challenges; and it risks creating resistance to safety measures among those who disagree with predictions of existential AI risks. Through a systematic literature review of primarily peer-reviewed research, we find a vast array of concrete safety work that addresses immediate and practical concerns with current AI systems. This includes crucial areas like adversarial robustness and interpretability, highlighting how AI safety research naturally extends existing technological and systems safety concerns and practices. Our findings suggest the need for an epistemically inclusive and pluralistic conception of AI safety that can accommodate the full range of safety considerations, motivations, and perspectives that currently shape the field.
- Abstract(参考訳): AIの安全性に関する最近の議論や研究は、AIの安全性と高度なAIシステムからの現実的リスクとの深いつながりを強調している。
しかし、このフレーミングには3つの潜在的な欠点がある:AIの安全性にコミットしているが、異なる角度からアプローチする研究者や実践者が除外される可能性がある;AIの安全性は、幅広い安全課題に対処するよりも、現実的なシナリオにのみ焦点を絞っている、という誤った見方を、AIのリスクの予測に反対する人々の間で、安全対策に対する抵抗を生み出すリスクがある。
主にピアレビューされた研究の体系的な文献レビューを通じて、現在のAIシステムに対する即時的で実践的な懸念に対処する、多数の具体的な安全作業を見つける。
これには、敵の堅牢性や解釈可能性といった重要な領域が含まれており、AI安全研究が既存の技術やシステムの安全性に関する懸念やプラクティスをいかに自然に拡張するかを強調している。
この結果から,現在現場を形作っている全範囲の安全配慮,モチベーション,視点に対応できる,認識論的かつ多元的なAI安全性の概念の必要性が示唆された。
関連論文リスト
- A Trilogy of AI Safety Frameworks: Paths from Facts and Knowledge Gaps to Reliable Predictions and New Knowledge [0.0]
AI安全は、AIコミュニティ内外の多くの科学者にとって重要な最前線の関心事となっている。
機械学習システムには、生存リスクから人間の存在、深い偽造、偏見まで、すぐに、長期にわたって予測されるリスクが数多く存在する。
論文 参考訳(メタデータ) (2024-10-09T14:43:06Z) - Trustworthy, Responsible, and Safe AI: A Comprehensive Architectural Framework for AI Safety with Challenges and Mitigations [15.946242944119385]
AI安全性は、AIシステムの安全な採用とデプロイにおいて重要な領域である。
私たちの目標は、AI安全研究の進歩を促進し、究極的には、デジタルトランスフォーメーションに対する人々の信頼を高めることです。
論文 参考訳(メタデータ) (2024-08-23T09:33:48Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - AI Risk Management Should Incorporate Both Safety and Security [185.68738503122114]
AIリスクマネジメントの利害関係者は、安全とセキュリティの間のニュアンス、シナジー、相互作用を意識すべきである、と私たちは主張する。
我々は、AIの安全性とAIのセキュリティの違いと相互作用を明らかにするために、統一された参照フレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-29T21:00:47Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Safe AI -- How is this Possible? [0.45687771576879593]
従来の安全エンジニアリングは、決定論的で非進化的なシステムが、明確に定義されたコンテキストで運用されるものから、予測不可能な操作コンテキストで機能する自律的で学習可能なAIシステムへと、転換点に近づいている。
我々は、安全AIの基本的な課題を概説し、AIシステムの安全な振る舞いにおいて、不確実性を最小化し、信頼性を高め、許容レベルまで、厳格なエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-25T16:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。