Fugu-MT 論文翻訳(概要): Sociotechnical Safety Evaluation of Generative AI Systems

論文の概要: Sociotechnical Safety Evaluation of Generative AI Systems

arxiv url: http://arxiv.org/abs/2310.11986v2
Date: Tue, 31 Oct 2023 18:23:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 16:37:39.359685
Title: Sociotechnical Safety Evaluation of Generative AI Systems
Title（参考訳）: 生成型AIシステムの社会安全評価
Authors: Laura Weidinger, Maribeth Rauh, Nahema Marchal, Arianna Manzini, Lisa Anne Hendricks, Juan Mateos-Garcia, Stevie Bergman, Jackie Kay, Conor Griffin, Ben Bariach, Iason Gabriel, Verena Rieser, William Isaac
Abstract要約: 生成AIシステムは、さまざまなリスクを生み出す。生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
参考スコア（独自算出の注目度）: 13.546708226350963
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI systems produce a range of risks. To ensure the safety of generative AI systems, these risks must be evaluated. In this paper, we make two main contributions toward establishing such evaluations. First, we propose a three-layered framework that takes a structured, sociotechnical approach to evaluating these risks. This framework encompasses capability evaluations, which are the main current approach to safety evaluation. It then reaches further by building on system safety principles, particularly the insight that context determines whether a given capability may cause harm. To account for relevant context, our framework adds human interaction and systemic impacts as additional layers of evaluation. Second, we survey the current state of safety evaluation of generative AI systems and create a repository of existing evaluations. Three salient evaluation gaps emerge from this analysis. We propose ways forward to closing these gaps, outlining practical steps as well as roles and responsibilities for different actors. Sociotechnical safety evaluation is a tractable approach to the robust and comprehensive safety evaluation of generative AI systems.
Abstract（参考訳）: 生成AIシステムは、さまざまなリスクを生み出す。生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。本稿では,評価の確立に向けて2つの大きな貢献を行う。まず,リスク評価のための構造的,社会学的アプローチを用いた3層フレームワークを提案する。このフレームワークは、安全性評価の主要なアプローチである能力評価を包含する。システム安全性の原則、特に与えられた能力が害をもたらすかどうかをコンテキストが決定する洞察に基づいてさらに到達します。関連する文脈を説明するため,我々のフレームワークは人的相互作用とシステム的影響を付加的な評価層として追加する。第2に、生成AIシステムの安全性評価の現状を調査し、既存の評価のリポジトリを作成する。この分析から3つの顕著な評価ギャップが生じる。我々はこれらのギャップを解消し、実践的なステップと異なるアクターの役割と責任を概説する。社会技術的安全性評価は、生成型aiシステムのロバストで包括的な安全性評価への扱いやすいアプローチである。

関連論文リスト

RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。リスク概念空間を再構築する理論的枠組みを導入する。マルチエージェント協調評価フレームワークRADARを提案する。
論文参考訳（メタデータ） (2025-09-28T09:35:32Z)
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。広範囲に展開したことにより、大きな安全上の懸念がもたらされた。 LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文参考訳（メタデータ） (2025-05-08T16:55:07Z)
Adapting Probabilistic Risk Assessment for AI [0.0]
汎用人工知能(AI)システムは、緊急リスク管理の課題を示す。現在の手法は、しばしば選択的なテストとリスク優先順位に関する未文書の仮定に依存します。本稿では,AIフレームワークの確率的リスクアセスメント(PRA)を紹介する。
論文参考訳（メタデータ） (2025-04-25T17:59:14Z)
What Makes an Evaluation Useful? Common Pitfalls and Best Practices [3.4740704830599385]
本稿では、脅威モデリングと評価設計を結びつける初期思考プロセスのステップについて論じる。評価に有用な特徴とパラメータを提供する。
論文参考訳（メタデータ） (2025-03-30T12:51:47Z)
Securing External Deeper-than-black-box GPAI Evaluations [49.1574468325115]
本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。サイズ、能力、到達度、付随するリスクの指数的な増加により、説明責任、安全性、および公的な信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
論文参考訳（メタデータ） (2025-03-10T16:13:45Z)
Toward an Evaluation Science for Generative AI Systems [22.733049816407114]
生成型AIシステムの評価科学の成熟を提唱する。特に,評価指標を実世界のパフォーマンスに適用し,評価指標を反復的に洗練し,評価機関と基準を確立すること,の3つの重要な教訓を提示する。
論文参考訳（メタデータ） (2025-03-07T11:23:48Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
What AI evaluations for preventing catastrophic risks can and cannot do [2.07180164747172]
評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
論文参考訳（メタデータ） (2024-11-26T18:00:36Z)
EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。 EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)
Evaluating AI Evaluation: Perils and Prospects [8.086002368038658]
本稿では,これらのシステムに対する評価手法が根本的に不適切であることを主張する。 AIシステムを評価するためには改革が必要であり、インスピレーションを得るために認知科学に目を向けるべきである、と私は主張する。
論文参考訳（メタデータ） (2024-07-12T12:37:13Z)
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文参考訳（メタデータ） (2024-05-10T17:38:32Z)
Holistic Safety and Responsibility Evaluations of Advanced AI Models [18.34510620901674]
高度なAIモデルの安全性と責任評価は、研究と実践の重要な分野である。 Google DeepMindの高度なAIモデルの開発において、安全評価に幅広いアプローチを革新し、適用しました。
論文参考訳（メタデータ） (2024-04-22T10:26:49Z)
Leveraging Traceability to Integrate Safety Analysis Artifacts into the Software Development Process [51.42800587382228]
安全保証ケース(SAC)は、システムの進化中に維持することが困難である。本稿では,ソフトウェアトレーサビリティを活用して,関連するシステムアーチファクトを安全解析モデルに接続する手法を提案する。安全ステークホルダーがシステム変更が安全性に与える影響を分析するのに役立つように、システム変更の合理性を設計する。
論文参考訳（メタデータ） (2023-07-14T16:03:27Z)
Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文参考訳（メタデータ） (2023-05-24T16:38:43Z)
Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文参考訳（メタデータ） (2023-02-18T09:32:55Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Quantitative AI Risk Assessments: Opportunities and Challenges [9.262092738841979]
AIベースのシステムは、組織、個人、社会に価値を提供するために、ますます活用されている。リスクは、提案された規制、訴訟、および一般的な社会的懸念につながった。本稿では,定量的AIリスクアセスメントの概念について考察する。
論文参考訳（メタデータ） (2022-09-13T21:47:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。