Fugu-MT 論文翻訳(概要): Model evaluation for extreme risks

論文の概要: Model evaluation for extreme risks

arxiv url: http://arxiv.org/abs/2305.15324v2
Date: Fri, 22 Sep 2023 18:48:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 02:44:03.162433
Title: Model evaluation for extreme risks
Title（参考訳）: 極端なリスクに対するモデル評価
Authors: Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins, Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul Christiano, Allan Dafoe
Abstract要約: AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。モデル評価が極端なリスクに対処するために重要である理由を説明します。
参考スコア（独自算出の注目度）: 46.53170857607407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current approaches to building general-purpose AI systems tend to produce systems with both beneficial and harmful capabilities. Further progress in AI development could lead to capabilities that pose extreme risks, such as offensive cyber capabilities or strong manipulation skills. We explain why model evaluation is critical for addressing extreme risks. Developers must be able to identify dangerous capabilities (through "dangerous capability evaluations") and the propensity of models to apply their capabilities for harm (through "alignment evaluations"). These evaluations will become critical for keeping policymakers and other stakeholders informed, and for making responsible decisions about model training, deployment, and security.
Abstract（参考訳）: 汎用AIシステムを構築するための現在のアプローチは、有益かつ有害な能力を持つシステムを生成する傾向がある。 ai開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルなど、極端なリスクをもたらす能力につながる可能性がある。モデル評価が極端なリスクに対処するために重要である理由を説明する。開発者は("危険な能力評価"を通じて)危険な能力と、("評価"を通じて)その能力を害に当てはめるモデルの拡張性を識別できなければなりません。これらの評価は、政策立案者や他の利害関係者に情報を提供し、モデルトレーニング、デプロイメント、セキュリティに関する責任ある決定を下すために重要になります。

関連論文リスト

Adapting Probabilistic Risk Assessment for AI [0.0]
汎用人工知能(AI)システムは、緊急リスク管理の課題を示す。現在の手法は、しばしば選択的なテストとリスク優先順位に関する未文書の仮定に依存します。本稿では,AIフレームワークの確率的リスクアセスメント(PRA)を紹介する。
論文参考訳（メタデータ） (2025-04-25T17:59:14Z)
What Makes an Evaluation Useful? Common Pitfalls and Best Practices [3.4740704830599385]
本稿では、脅威モデリングと評価設計を結びつける初期思考プロセスのステップについて論じる。評価に有用な特徴とパラメータを提供する。
論文参考訳（メタデータ） (2025-03-30T12:51:47Z)
Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文参考訳（メタデータ） (2025-02-04T19:00:06Z)
What AI evaluations for preventing catastrophic risks can and cannot do [2.07180164747172]
評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
論文参考訳（メタデータ） (2024-11-26T18:00:36Z)
Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。我々は、一連の関連する脅威モデルと評価を開発する。これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文参考訳（メタデータ） (2024-10-28T20:34:51Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。 EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)
AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
信頼できる能力評価は、AIシステムの安全性を保証するために不可欠である。 AIシステムの開発者は、AIの実際の能力を説明するための評価のためのインセンティブを持つことができる。本稿では,現代言語モデルにおけるサンドバッグ機能の評価を行う。
論文参考訳（メタデータ） (2024-06-11T15:26:57Z)
Generative AI Models: Opportunities and Risks for Industry and Authorities [1.3914994102950027]
生成AIモデルは、伝統的に創造性と人間の理解を必要とする幅広いタスクを実行することができる。トレーニング中に既存のデータからパターンを学び、その後、新しいコンテンツを生成することができる。生成AIモデルを使用することで、考慮すべき新たなITセキュリティリスクがもたらされる。
論文参考訳（メタデータ） (2024-06-07T08:34:30Z)
Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文参考訳（メタデータ） (2024-05-14T13:37:36Z)
Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文参考訳（メタデータ） (2024-03-20T17:54:26Z)
Asset-centric Threat Modeling for AI-based Systems [7.696807063718328]
本稿では、AI関連資産、脅威、対策、残留リスクの定量化のためのアプローチおよびツールであるThreatFinderAIを提案する。このアプローチの実用性を評価するため、参加者はAIベースのヘルスケアプラットフォームのサイバーセキュリティ専門家によって開発された脅威モデルを再現するよう命じられた。全体として、ソリューションのユーザビリティはよく認識され、脅威の識別とリスクの議論を効果的にサポートする。
論文参考訳（メタデータ） (2024-03-11T08:40:01Z)
Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-18T14:13:58Z)
Quantitative AI Risk Assessments: Opportunities and Challenges [9.262092738841979]
AIベースのシステムは、組織、個人、社会に価値を提供するために、ますます活用されている。リスクは、提案された規制、訴訟、および一般的な社会的懸念につながった。本稿では,定量的AIリスクアセスメントの概念について考察する。
論文参考訳（メタデータ） (2022-09-13T21:47:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。