論文の概要: Upstream and Downstream AI Safety: Both on the Same River?
- arxiv url: http://arxiv.org/abs/2501.05455v1
- Date: Mon, 09 Dec 2024 23:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 07:48:14.792305
- Title: Upstream and Downstream AI Safety: Both on the Same River?
- Title(参考訳): 上流と下流のAI安全:どちらも同じ川で?
- Authors: John McDermid, Yan Jia, Ibrahim Habli,
- Abstract要約: 従来の安全工学は、自動運転車の運用設計領域のような、使用状況でシステムを評価する。
対照的に、ダウンストリームタスクのためにさらに訓練できる大規模な言語モデルなど、フロンティアAIの安全性に関する作業は、通常、特定のアプリケーションコンテキストを超えた要因を考慮する。
上流と下流の両方の安全フレームワークの特徴を概説し、幅広いAI安全コミュニティがこれらのフレームワーク間の相乗効果の恩恵を受けることができる範囲について検討する。
- 参考スコア(独自算出の注目度): 2.568305911419446
- License:
- Abstract: Traditional safety engineering assesses systems in their context of use, e.g. the operational design domain (road layout, speed limits, weather, etc.) for self-driving vehicles (including those using AI). We refer to this as downstream safety. In contrast, work on safety of frontier AI, e.g. large language models which can be further trained for downstream tasks, typically considers factors that are beyond specific application contexts, such as the ability of the model to evade human control, or to produce harmful content, e.g. how to make bombs. We refer to this as upstream safety. We outline the characteristics of both upstream and downstream safety frameworks then explore the extent to which the broad AI safety community can benefit from synergies between these frameworks. For example, can concepts such as common mode failures from downstream safety be used to help assess the strength of AI guardrails? Further, can the understanding of the capabilities and limitations of frontier AI be used to inform downstream safety analysis, e.g. where LLMs are fine-tuned to calculate voyage plans for autonomous vessels? The paper identifies some promising avenues to explore and outlines some challenges in achieving synergy, or a confluence, between upstream and downstream safety frameworks.
- Abstract(参考訳): 従来の安全工学は、自動運転車(AIを使用するものを含む)の運用設計領域(道路のレイアウト、速度制限、天候など)など、使用状況でシステムを評価する。
これを下流の安全と呼ぶ。
対照的に、例えば、ダウンストリームタスクのためにさらにトレーニング可能な大規模な言語モデルであるフロンティアAIの安全性に関する作業では、一般的に、モデルが人間のコントロールを回避したり、有害なコンテンツを生成したり、例えば爆弾の作り方など、特定のアプリケーションコンテキストを超えた要因について検討する。
これを上流の安全と呼ぶ。
上流と下流の両方の安全フレームワークの特徴を概説し、幅広いAI安全コミュニティがこれらのフレームワーク間の相乗効果の恩恵を受けることができる範囲について検討する。
例えば、ダウンストリームセーフティからの共通モード障害のような概念は、AIガードレールの強度を評価するのに役立つだろうか?
さらに、フロンティアAIの能力と限界を理解して、下流の安全分析を知らせることができるだろうか。
本稿は、上流と下流の安全フレームワーク間の相乗効果(コンバレンス)を達成するためのいくつかの課題について検討し、概説する。
関連論文リスト
- Safety cases for frontier AI [0.8987776881291144]
安全事例とは、ある運用状況においてシステムが十分に安全であるという証拠によって支持された構造化された議論を行う報告である。
安全ケースは、航空や原子力など他の安全上重要な産業ですでに一般的である。
業界における自己規制と政府の規制の両方において、これらがフロンティアAIガバナンスにおいて有用なツールである理由を説明します。
論文 参考訳(メタデータ) (2024-10-28T22:08:28Z) - SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Safety Analysis of Autonomous Railway Systems: An Introduction to the SACRED Methodology [2.47737926497181]
本稿では,自律システムの初期安全ケースを作成するための安全手法であるSACREDを紹介する。
SACREDの開発は、ベルリンで提案されたGoA-4ライトレールシステムによって動機付けられている。
論文 参考訳(メタデータ) (2024-03-18T11:12:19Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion
Transformer [28.15612357340141]
我々は、InterFuser(Interpretable Sensor Fusion Transformer)という安全強化型自律走行フレームワークを提案する。
我々は、総合的なシーン理解と対向事象検出を実現するために、マルチモーダル・マルチビューセンサーからの情報を処理し、融合する。
私たちのフレームワークは、よりセマンティクスを提供し、安全なセット内のアクションをよりよく制約するために利用されます。
論文 参考訳(メタデータ) (2022-07-28T11:36:21Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - AdvSim: Generating Safety-Critical Scenarios for Self-Driving Vehicles [76.46575807165729]
我々は,任意のLiDARベースの自律システムに対して,安全クリティカルなシナリオを生成するための,敵対的フレームワークであるAdvSimを提案する。
センサデータから直接シミュレートすることにより、完全な自律スタックに対して安全クリティカルな敵シナリオを得る。
論文 参考訳(メタデータ) (2021-01-16T23:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。