論文の概要: Mapping Technical Safety Research at AI Companies: A literature review and incentives analysis
- arxiv url: http://arxiv.org/abs/2409.07878v1
- Date: Thu, 12 Sep 2024 09:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 17:08:15.567184
- Title: Mapping Technical Safety Research at AI Companies: A literature review and incentives analysis
- Title(参考訳): AI企業における技術安全研究のマッピング:文献レビューとインセンティブ分析
- Authors: Oscar Delaney, Oliver Guest, Zoe Williams,
- Abstract要約: レポートは、3つの主要なAI企業が実施する安全なAI開発に関する技術研究を分析している。
Anthropic、Google DeepMind、OpenAI。
私たちは安全なAI開発を、大規模な誤用や事故のリスクを生じにくいAIシステムの開発であると定義しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) systems become more advanced, concerns about large-scale risks from misuse or accidents have grown. This report analyzes the technical research into safe AI development being conducted by three leading AI companies: Anthropic, Google DeepMind, and OpenAI. We define safe AI development as developing AI systems that are unlikely to pose large-scale misuse or accident risks. This encompasses a range of technical approaches aimed at ensuring AI systems behave as intended and do not cause unintended harm, even as they are made more capable and autonomous. We analyzed all papers published by the three companies from January 2022 to July 2024 that were relevant to safe AI development, and categorized the 61 included papers into eight safety approaches. Additionally, we noted three categories representing nascent approaches explored by academia and civil society, but not currently represented in any papers by the three companies. Our analysis reveals where corporate attention is concentrated and where potential gaps lie. Some AI research may stay unpublished for good reasons, such as to not inform adversaries about security techniques they would need to overcome to misuse AI systems. Therefore, we also considered the incentives that AI companies have to research each approach. In particular, we considered reputational effects, regulatory burdens, and whether the approaches could make AI systems more useful. We identified three categories where there are currently no or few papers and where we do not expect AI companies to become more incentivized to pursue this research in the future. These are multi-agent safety, model organisms of misalignment, and safety by design. Our findings provide an indication that these approaches may be slow to progress without funding or efforts from government, civil society, philanthropists, or academia.
- Abstract(参考訳): 人工知能(AI)システムが高度化するにつれ、誤用や事故による大規模リスクへの懸念が高まっている。
このレポートは、Anthropic、Google DeepMind、OpenAIという3つの主要なAI企業が実施している安全なAI開発に関する技術研究を分析します。
私たちは安全なAI開発を、大規模な誤用や事故のリスクを生じにくいAIシステムの開発であると定義しています。
これには、AIシステムが意図したように振る舞うことを保証することを目的とした、さまざまな技術的アプローチが含まれており、より有能で自律的なものであっても、意図しない害を生じさせない。
私たちは、2022年1月から2024年7月までに3社から出版されたすべての論文を分析し、61件の論文を8つの安全アプローチに分類した。
また, 学界と市民社会の早期アプローチを示す3つのカテゴリーについて言及した。
私たちの分析は、企業の関心が集中している場所と、潜在的なギャップがどこにあるかを明らかにします。
一部のAI研究は、AIシステムを誤用するために克服する必要があるセキュリティ技術について敵に知らせないなど、正当な理由から公表されていないかもしれない。
そこで我々は、AI企業がそれぞれのアプローチを研究する必要があるインセンティブについても検討した。
特に、評価効果、規制上の負担、アプローチによってAIシステムがより有用になるかどうかを検討した。
私たちは、現在論文がほとんど、あるいはほとんどない3つのカテゴリを特定しました。
これらはマルチエージェントの安全性、ミスアライメントのモデル生物、設計による安全性である。
以上の結果から,政府,市民社会,慈善家,アカデミアからの資金提供や努力なしに,これらのアプローチが進展する可能性が示唆された。
関連論文リスト
- Towards evaluations-based safety cases for AI scheming [37.399946932069746]
本論では,安全事例がスケジューリングに有効である,という3つの論点を提案する。
第一に、フロンティアAIシステムの開発者は、AIシステムはスケジューリングができないと主張するかもしれない。
第二に、AIシステムはスケジューリングによって害を与えることができない、という主張もある。
第三に、AIシステムが意図的にそれらを覆そうと試みても、AIシステムを取り巻く制御手段が受け入れられない結果を防ぐと論じることもできる。
論文 参考訳(メタデータ) (2024-10-29T17:55:29Z) - A Survey on Offensive AI Within Cybersecurity [1.8206461789819075]
攻撃的AIに関する調査論文は、AIシステムに対する攻撃および使用に関する様々な側面を包括的にカバーする。
消費者、企業、公共のデジタルインフラストラクチャなど、さまざまな分野における攻撃的なAIプラクティスの影響を掘り下げる。
この論文では、敵対的な機械学習、AIモデルに対する攻撃、インフラストラクチャ、インターフェース、および情報収集、ソーシャルエンジニアリング、兵器化されたAIといった攻撃的テクニックについて検討する。
論文 参考訳(メタデータ) (2024-09-26T17:36:22Z) - The Narrow Depth and Breadth of Corporate Responsible AI Research [3.364518262921329]
私たちは、AI企業の大多数が、この重要なAIのサブフィールドにおいて、限られた、あるいは全く関与していないことを示している。
主要なAI企業は、従来のAI研究に比べて、責任あるAI研究のアウトプットが著しく低い。
当社の結果は、業界が責任あるAI研究を公然と行う必要性を浮き彫りにしたものだ。
論文 参考訳(メタデータ) (2024-05-20T17:26:43Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits [54.648819983899614]
汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を下げたようだ。
本稿では,AI利用事例とその影響を推測し,評価するためのフレームワークであるPartICIP-AIを紹介する。
論文 参考訳(メタデータ) (2024-03-21T19:12:37Z) - Towards more Practical Threat Models in Artificial Intelligence Security [66.67624011455423]
最近の研究で、人工知能のセキュリティの研究と実践のギャップが特定されている。
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
論文 参考訳(メタデータ) (2023-11-16T16:09:44Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.84424818447696]
本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
論文 参考訳(メタデータ) (2023-08-28T17:59:35Z) - Proceedings of the Artificial Intelligence for Cyber Security (AICS)
Workshop at AAAI 2022 [55.573187938617636]
ワークショップは、サイバーセキュリティの問題へのAIの適用に焦点を当てる。
サイバーシステムは大量のデータを生成し、これを効果的に活用することは人間の能力を超えます。
論文 参考訳(メタデータ) (2022-02-28T18:27:41Z) - An Ethical Framework for Guiding the Development of Affectively-Aware
Artificial Intelligence [0.0]
本稿では、感情認識型AIの倫理的結果(道徳的・倫理的結果)を評価するためのガイドラインを提案する。
我々は,AI開発者による倫理的責任を分離し,そのようなAIをデプロイするエンティティをビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビ
最終的には研究者、開発者、オペレーター、規制当局、法執行機関への勧告で終わります。
論文 参考訳(メタデータ) (2021-07-29T03:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。