Fugu-MT 論文翻訳(概要): Arguments about Highly Reliable Agent Designs as a Useful Path to Artificial Intelligence Safety

論文の概要: Arguments about Highly Reliable Agent Designs as a Useful Path to Artificial Intelligence Safety

arxiv url: http://arxiv.org/abs/2201.02950v1
Date: Sun, 9 Jan 2022 07:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-11 16:47:51.590537
Title: Arguments about Highly Reliable Agent Designs as a Useful Path to Artificial Intelligence Safety
Title（参考訳）: 人工知能の安全性のための高信頼性エージェント設計の課題
Authors: Issa Rice, David Manheim
Abstract要約: HRAD(Highly Reliable Agent Designs)は、最も議論の的かつ野心的なアプローチの一つである。我々は,(1)付随効用,(2)脱融合,(3)正確な仕様,(4)予測の議論をタイトルにした。本稿では,出版・非公式文献のレビューに基づいて,その前提と主張を論じるとともに,その話題に関する立場を述べた専門家も紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Several different approaches exist for ensuring the safety of future Transformative Artificial Intelligence (TAI) or Artificial Superintelligence (ASI) systems, and proponents of different approaches have made different and debated claims about the importance or usefulness of their work in the near term, and for future systems. Highly Reliable Agent Designs (HRAD) is one of the most controversial and ambitious approaches, championed by the Machine Intelligence Research Institute, among others, and various arguments have been made about whether and how it reduces risks from future AI systems. In order to reduce confusion in the debate about AI safety, here we build on a previous discussion by Rice which collects and presents four central arguments which are used to justify HRAD as a path towards safety of AI systems. We have titled the arguments (1) incidental utility,(2) deconfusion, (3) precise specification, and (4) prediction. Each of these makes different, partly conflicting claims about how future AI systems can be risky. We have explained the assumptions and claims based on a review of published and informal literature, along with consultation with experts who have stated positions on the topic. Finally, we have briefly outlined arguments against each approach and against the agenda overall.
Abstract（参考訳）: 将来のトランスフォーメーション人工知能(tai)やasi(artificial superintelligence)システムの安全性を確保するために、いくつかの異なるアプローチが存在しており、異なるアプローチの支持者は、近未来における彼らの仕事の重要性や有用性、将来のシステムについて異論を唱えている。高い信頼性を持つエージェントデザイン(hrad)は、マシンインテリジェンス研究所などによって提唱された最も議論の的となっている野心的なアプローチの1つであり、将来のaiシステムからリスクを低減させるかどうかについて様々な議論がなされている。 AIの安全性に関する議論の混乱を軽減するため、ここでは、AIシステムの安全性への道筋としてHRADを正当化するために使用される4つの中心的な議論を集め、提示するライスによる以前の議論に基づいて構築する。我々は,(1)付随効用,(2)脱融合,(3)正確な仕様,(4)予測の議論をタイトルにした。これらのそれぞれが、将来のAIシステムがいかに危険であるかについて、部分的に矛盾する主張をしている。我々は,出版文献と非公式文献のレビューと,その話題に関する立場を述べた専門家との相談に基づいて,仮定と主張を説明してきた。最後に,それぞれのアプローチに対する議論と,アジェンダ全体に対する議論を概説した。

関連論文リスト

An alignment safety case sketch based on debate [3.2504831918078168]
提案された解決策の1つは、システムの出力の欠陥を議論を通じて指摘するために、別の超人的システムを活用することである。本稿では,AIの安全性に関する議論の価値について概説する。
論文参考訳（メタデータ） (2025-05-06T21:53:44Z)
The BIG Argument for AI Safety Cases [4.0675753909100445]
BIGの議論は、さまざまな能力、自律性、臨界性を持つAIシステムの安全ケースを構築するためのシステム全体のアプローチを採用する。安全性と、プライバシーや株式といった他の重要な倫理的問題に対処することでバランスがとれる。安全保証の社会的、倫理的、技術的側面を、追跡可能で説明可能な方法でまとめることによって統合される。
論文参考訳（メタデータ） (2025-03-12T11:33:28Z)
Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。 AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文参考訳（メタデータ） (2024-11-04T18:10:10Z)
Towards evaluations-based safety cases for AI scheming [37.399946932069746]
本論では,安全事例がスケジューリングに有効である,という3つの論点を提案する。第一に、フロンティアAIシステムの開発者は、AIシステムはスケジューリングができないと主張するかもしれない。第二に、AIシステムはスケジューリングによって害を与えることができない、という主張もある。第三に、AIシステムが意図的にそれらを覆そうと試みても、AIシステムを取り巻く制御手段が受け入れられない結果を防ぐと論じることもできる。
論文参考訳（メタデータ） (2024-10-29T17:55:29Z)
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文参考訳（メタデータ） (2024-07-31T17:59:24Z)
Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文参考訳（メタデータ） (2024-07-03T15:38:57Z)
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文参考訳（メタデータ） (2024-05-10T17:38:32Z)
Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文参考訳（メタデータ） (2024-04-25T21:14:24Z)
Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文参考訳（メタデータ） (2024-01-27T19:34:13Z)
Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文参考訳（メタデータ） (2023-10-26T17:59:06Z)
Predictable Artificial Intelligence [77.1127726638209]
本稿では予測可能なAIのアイデアと課題を紹介する。それは、現在および将来のAIエコシステムの重要な妥当性指標を予測できる方法を探る。予測可能性を達成することは、AIエコシステムの信頼、責任、コントロール、アライメント、安全性を促進するために不可欠である、と私たちは主張する。
論文参考訳（メタデータ） (2023-10-09T21:36:21Z)
Modeling Transformative AI Risks (MTAIR) Project -- Summary Report [0.0]
このレポートは、Cottier氏とShah氏による以前の図に基づいており、いくつかの説明とともに、視覚的に重要な不一致(クラックス)をいくつか説明した。このモデルは、アナロジーと人工知能に関する一般的な以前の信念による推論に関する議論から始まる。さまざまなパスのモデルをレイアウトし、ハイレベルなマシンインテリジェンスのためのテクノロジーと、これらのシステムの能力の進歩のモデルを構築している。このモデルは、学習した最適化の問題や、機械学習システムがメザ最適化を作成するかどうかについても特に注目している。
論文参考訳（メタデータ） (2022-06-19T09:11:23Z)
X-Risk Analysis for AI Research [24.78742908726579]
我々は、AI x-riskの分析方法のガイドを提供する。まず、今日のシステムの安全性についてレビューする。次に,今後のシステムの安全性に長期的影響を与える戦略について議論する。
論文参考訳（メタデータ） (2022-06-13T00:22:50Z)
Transdisciplinary AI Observatory -- Retrospective Analyses and Future-Oriented Contradistinctions [22.968817032490996]
本稿では、本質的に学際的なAI観測アプローチの必要性を動機づける。これらのAI観測ツールに基づいて、我々はAIの安全性に関する短期的な学際的ガイドラインを提示する。
論文参考訳（メタデータ） (2020-11-26T16:01:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。