論文の概要: Risk thresholds for frontier AI
- arxiv url: http://arxiv.org/abs/2406.14713v1
- Date: Thu, 20 Jun 2024 20:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-24 17:49:36.163068
- Title: Risk thresholds for frontier AI
- Title(参考訳): フロンティアAIのリスクしきい値
- Authors: Leonie Koessler, Jonas Schuett, Markus Anderljung,
- Abstract要約: 人気が高まっているアプローチの1つは、機能しきい値を定義することである。
リスク閾値は単に、どれだけのリスクが過剰かを記述するだけです。
主な欠点は、信頼性の高い評価が難しいことだ。
- 参考スコア(独自算出の注目度): 1.053373860696675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier artificial intelligence (AI) systems could pose increasing risks to public safety and security. But what level of risk is acceptable? One increasingly popular approach is to define capability thresholds, which describe AI capabilities beyond which an AI system is deemed to pose too much risk. A more direct approach is to define risk thresholds that simply state how much risk would be too much. For instance, they might state that the likelihood of cybercriminals using an AI system to cause X amount of economic damage must not increase by more than Y percentage points. The main upside of risk thresholds is that they are more principled than capability thresholds, but the main downside is that they are more difficult to evaluate reliably. For this reason, we currently recommend that companies (1) define risk thresholds to provide a principled foundation for their decision-making, (2) use these risk thresholds to help set capability thresholds, and then (3) primarily rely on capability thresholds to make their decisions. Regulators should also explore the area because, ultimately, they are the most legitimate actors to define risk thresholds. If AI risk estimates become more reliable, risk thresholds should arguably play an increasingly direct role in decision-making.
- Abstract(参考訳): 最前線の人工知能(AI)システムは、公共の安全とセキュリティのリスクを増大させる可能性がある。
しかし、どのレベルのリスクが受け入れられるのか?
ますます一般的なアプローチのひとつは、AIシステムが過度にリスクを負うと見なされる、AI能力を記述する機能しきい値を定義することだ。
より直接的なアプローチは、リスクが過大評価されるリスクしきい値を定義することです。
例えば、AIシステムを使用したサイバー犯罪者がXの経済被害を発生させる可能性は、Y以上のポイントで増加してはいけない、と彼らは述べている。
リスクしきい値の主な利点は、それらが能力しきい値よりも原則的であることであるが、主な欠点は、信頼性の高い評価が難しいことである。
そのため、現在、企業は(1)意思決定の原則的基盤を提供するためのリスクしきい値を定義し、(2)これらのリスクしきい値を使用して能力しきい値を設定し、(3)主に能力しきい値に頼って意思決定を行うことを推奨しています。
規制当局は、最終的にリスク閾値を定義する最も合法的なアクターであるため、この領域を探索する必要がある。
AIのリスク見積がより信頼できるものになると、リスクしきい値が意思決定においてますます直接的な役割を果たすはずだ。
関連論文リスト
- Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文 参考訳(メタデータ) (2025-12-30T14:38:02Z) - The Role of Risk Modeling in Advanced AI Risk Management [33.357295564462284]
急速に進歩する人工知能(AI)システムは、新しい、不確実で、潜在的に破滅的なリスクをもたらす。
これらのリスクを管理するには、厳格なリスクモデリングの基盤となる成熟したリスク管理インフラストラクチャが必要です。
先進的なAIガバナンスは、同様の二重アプローチを採用するべきであり、検証可能な、確実に安全なAIアーキテクチャが緊急に必要である、と私たちは主張する。
論文 参考訳(メタデータ) (2025-12-09T15:37:33Z) - Can Risk-taking AI-Assistants suitably represent entities [0.0]
本研究では,言語モデル(LM)におけるリスク回避の操作性について検討する。
性別固有の態度、不確実性、役割に基づく意思決定、リスク回避の操作性に焦点を当てている。
結果は、人間とAIのリスク選好をより良く整合させるために、AI設計を洗練するための方向性を示唆している。
論文 参考訳(メタデータ) (2025-10-09T11:55:31Z) - "We are not Future-ready": Understanding AI Privacy Risks and Existing Mitigation Strategies from the Perspective of AI Developers in Europe [56.1653658714305]
ヨーロッパを拠点とする25人のAI開発者を対象にインタビューを行い、ユーザ、開発者、ビジネスに最もリスクをもたらすと彼らが信じているプライバシの脅威を理解しました。
プライバシリスクの相対的なランク付けに関して、AI開発者の間ではほとんど合意が得られていないことが分かっています。
AI開発者はこれらのリスクに対処するために提案された緩和戦略を認識しているが、彼らは最小限の現実的採用を報告した。
論文 参考訳(メタデータ) (2025-10-01T13:51:33Z) - An Artificial Intelligence Value at Risk Approach: Metrics and Models [0.0]
人工知能のリスク管理技術の現状は、今後のAI規制により、非常に未熟であるようだ。
本稿の目的は、AIリスク管理の深さについて、AIステークホルダーを指向させることである。
論文 参考訳(メタデータ) (2025-09-22T20:27:29Z) - A First-Principles Based Risk Assessment Framework and the IEEE P3396 Standard [0.0]
生成人工知能(AI)は、コンテンツ作成と意思決定支援において前例のない自動化を可能にしている。
本稿では、IEEE P3396 Recommended Practice for AI Risk, Safety, Trustworthiness, and Responsibilityの基礎となる第一原理リスク評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T18:00:03Z) - Intolerable Risk Threshold Recommendations for Artificial Intelligence [0.2383122657918106]
フロンティアAIモデルは、公共の安全、人権、経済の安定、社会的価値に深刻なリスクをもたらす可能性がある。
リスクは、意図的に敵の誤用、システム障害、意図しないカスケード効果、複数のモデルにまたがる同時障害から生じる可能性がある。
16のグローバルAI産業組織がFrontier AI Safety Commitmentsに署名し、27の国とEUは、これらのしきい値を定義する意図を宣言した。
論文 参考訳(メタデータ) (2025-03-04T12:30:37Z) - Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models [63.559461750135334]
言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。
回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
論文 参考訳(メタデータ) (2025-03-03T09:16:26Z) - Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。
この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。
分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-04T19:00:06Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Risk Alignment in Agentic AI Systems [0.0]
監視の少ない複雑な行動を実行することができるエージェントAIは、そのようなシステムをユーザ、開発者、社会と安全に構築し整合させる方法について、新たな疑問を提起する。
リスクアライメントは、ユーザの満足度と信頼には重要ですが、社会にさらに大きな影響をもたらします。
これらの質問の重要な規範的および技術的側面を論じる3つの論文を提示する。
論文 参考訳(メタデータ) (2024-10-02T18:21:08Z) - The AI Risk Repository: A Comprehensive Meta-Review, Database, and Taxonomy of Risks From Artificial Intelligence [35.77247656798871]
人工知能(AI)によって引き起こされるリスクは、学者、監査人、政策立案者、AI企業、そして一般大衆にかなり懸念されている。
AIリスクに対する共通理解の欠如は、包括的に議論し、研究し、それに反応する能力を妨げる可能性がある。
本稿では、共通の参照フレームとして機能するAIリスクリポジトリを作成することで、このギャップに対処する。
論文 参考訳(メタデータ) (2024-08-14T10:32:06Z) - Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。
この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文 参考訳(メタデータ) (2024-05-14T13:37:36Z) - Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。
業界の自己規制は重要な第一歩です。
安全基準の最初のセットを提案する。
論文 参考訳(メタデータ) (2023-07-06T17:03:25Z) - Three lines of defense against risks from AI [0.0]
AIリスク管理の責任者は必ずしも明確ではない。
3つの防衛ライン(3LoD)モデルは、多くの産業でベストプラクティスと考えられている。
私は、AI企業がモデルを実装できる方法を提案する。
論文 参考訳(メタデータ) (2022-12-16T09:33:00Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [9.262092738841979]
AIベースのシステムは、組織、個人、社会に価値を提供するために、ますます活用されている。
リスクは、提案された規制、訴訟、および一般的な社会的懸念につながった。
本稿では,定量的AIリスクアセスメントの概念について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。