Fugu-MT 論文翻訳(概要): Holistic Safety and Responsibility Evaluations of Advanced AI Models

論文の概要: Holistic Safety and Responsibility Evaluations of Advanced AI Models

arxiv url: http://arxiv.org/abs/2404.14068v1
Date: Mon, 22 Apr 2024 10:26:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 14:16:23.996029
Title: Holistic Safety and Responsibility Evaluations of Advanced AI Models
Title（参考訳）: 高度なAIモデルの安全性と責任評価
Authors: Laura Weidinger, Joslyn Barnhart, Jenny Brennan, Christina Butterfield, Susie Young, Will Hawkins, Lisa Anne Hendricks, Ramona Comanescu, Oscar Chang, Mikel Rodriguez, Jennifer Beroshi, Dawn Bloxwich, Lev Proleev, Jilin Chen, Sebastian Farquhar, Lewis Ho, Iason Gabriel, Allan Dafoe, William Isaac,
Abstract要約: 高度なAIモデルの安全性と責任評価は、研究と実践の重要な分野である。 Google DeepMindの高度なAIモデルの開発において、安全評価に幅広いアプローチを革新し、適用しました。
参考スコア（独自算出の注目度）: 18.34510620901674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Safety and responsibility evaluations of advanced AI models are a critical but developing field of research and practice. In the development of Google DeepMind's advanced AI models, we innovated on and applied a broad set of approaches to safety evaluation. In this report, we summarise and share elements of our evolving approach as well as lessons learned for a broad audience. Key lessons learned include: First, theoretical underpinnings and frameworks are invaluable to organise the breadth of risk domains, modalities, forms, metrics, and goals. Second, theory and practice of safety evaluation development each benefit from collaboration to clarify goals, methods and challenges, and facilitate the transfer of insights between different stakeholders and disciplines. Third, similar key methods, lessons, and institutions apply across the range of concerns in responsibility and safety - including established and emerging harms. For this reason it is important that a wide range of actors working on safety evaluation and safety research communities work together to develop, refine and implement novel evaluation approaches and best practices, rather than operating in silos. The report concludes with outlining the clear need to rapidly advance the science of evaluations, to integrate new evaluations into the development and governance of AI, to establish scientifically-grounded norms and standards, and to promote a robust evaluation ecosystem.
Abstract（参考訳）: 高度なAIモデルの安全性と責任評価は、研究と実践の重要な分野である。 Google DeepMindの高度なAIモデルの開発において、安全評価に幅広いアプローチを革新し、適用しました。このレポートでは、進化するアプローチの要素を要約し、共有し、幅広い聴衆に学んだ教訓を共有します。まず、理論的な基盤とフレームワークは、リスクドメイン、モダリティ、フォーム、メトリクス、目標の幅を整理するのに貴重なものです。第2に、安全評価開発の理論と実践は、それぞれが目標、方法、課題を明確にし、異なる利害関係者と規律間の洞察の伝達を促進するために、協力から恩恵を受ける。第3に、同様の重要な方法、レッスン、機関は、確立と新興の害を含む、責任と安全に関するさまざまな関心事に適用される。このため、安全評価と安全研究のコミュニティに携わる幅広いアクターが協力して、サイロでの運用よりも、新しい評価アプローチやベストプラクティスを開発し、洗練し、実践することが重要である。報告書は、評価の科学を迅速に発展させ、AIの開発とガバナンスに新たな評価を統合すること、科学的な基準と標準を確立すること、堅牢な評価エコシステムを促進することの必要性を明確にまとめて締めくくっている。

関連論文リスト

Accountability of Robust and Reliable AI-Enabled Systems: A Preliminary Study and Roadmap [1.8816378259778017]
本稿では,AI対応システムの堅牢性と信頼性を評価するための最初の研究について述べる。この研究は、これらの概念の定義を進化させ、現在の文献をレビューすることによって、この分野における大きな課題とアプローチを浮き彫りにしている。説明責任の法人化は、信頼の構築と責任あるAI開発を保証するために不可欠である。
論文参考訳（メタデータ） (2025-06-20T08:35:11Z)
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [42.57873562187369]
大規模言語モデル(LLM)は自然言語処理(NLP)分野において顕著な可能性を示した。 LLMは、特に敵のシナリオにおいて、毒性や偏見のような安全でない要素を時々示してきた。本調査は,LLMの安全性評価の最近の進歩を包括的かつ体系的に概観することを目的としている。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
What Makes an Evaluation Useful? Common Pitfalls and Best Practices [3.4740704830599385]
本稿では、脅威モデリングと評価設計を結びつける初期思考プロセスのステップについて論じる。評価に有用な特徴とパラメータを提供する。
論文参考訳（メタデータ） (2025-03-30T12:51:47Z)
Securing External Deeper-than-black-box GPAI Evaluations [49.1574468325115]
本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。サイズ、能力、到達度、付随するリスクの指数的な増加により、説明責任、安全性、および公的な信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
論文参考訳（メタデータ） (2025-03-10T16:13:45Z)
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。 AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-02-24T02:11:52Z)
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [333.9220561243189]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文参考訳（メタデータ） (2025-02-20T06:20:36Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
SoK: Unifying Cybersecurity and Cybersafety of Multimodal Foundation Models with an Information Theory Approach [58.93030774141753]
MFM(Multimodal foundation model)は、人工知能の大幅な進歩を表す。本稿では,マルチモーダル学習におけるサイバーセーフティとサイバーセキュリティを概念化する。我々は、これらの概念をMFMに統一し、重要な脅威を特定するための総合的知識体系化(SoK)を提案する。
論文参考訳（メタデータ） (2024-11-17T23:06:20Z)
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文参考訳（メタデータ） (2024-07-31T17:59:24Z)
Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。 HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文参考訳（メタデータ） (2024-07-09T12:52:22Z)
Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。世界中から約1200チームが参加した。トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文参考訳（メタデータ） (2024-06-13T12:58:00Z)
Quantifying AI Vulnerabilities: A Synthesis of Complexity, Dynamical Systems, and Game Theory [0.0]
システム複雑度指数(SCI)、Lyapunov Exponent for AI stability(LEAIS)、Nash Equilibrium Robustness(NER)の3つの指標を導入する新しいアプローチを提案する。 SCIはAIシステムの固有の複雑さを定量化し、LEAISはその安定性と摂動に対する感受性を捉え、NERは敵の操作に対する戦略的堅牢性を評価する。
論文参考訳（メタデータ） (2024-04-07T07:05:59Z)
Safe and Robust Reinforcement Learning: Principles and Practice [0.0]
強化学習は比較的複雑なタスクの解決に顕著な成功を収めた。現実のシナリオにおけるRLシステムのデプロイは、安全性と堅牢性に関する重大な課題を生じさせる。本稿では, アルゴリズム, 倫理的, 実践的考察を含む安全で堅牢なRL景観の主次元について考察する。
論文参考訳（メタデータ） (2024-03-27T13:14:29Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-18T14:13:58Z)
Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文参考訳（メタデータ） (2023-02-18T09:32:55Z)
L2Explorer: A Lifelong Reinforcement Learning Assessment Environment [49.40779372040652]
強化学習ソリューションは、トレーニングされたデータ配布以外の新しいタスクに晒されると、あまり一般化しない傾向があります。生涯学習エクスプローラー(L2Explorer)を用いた継続的強化学習開発と評価のための枠組みを導入する。 L2Explorerは新しいUnityベースのファーストパーソンな3D探索環境で、複雑な評価カリキュラムに構造化されたタスクやタスクのバリエーションを生成するために継続的に再構成することができる。
論文参考訳（メタデータ） (2022-03-14T19:20:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。