Fugu-MT 論文翻訳(概要): Modeling Transformative AI Risks (MTAIR) Project -- Summary Report

論文の概要: Modeling Transformative AI Risks (MTAIR) Project -- Summary Report

arxiv url: http://arxiv.org/abs/2206.09360v1
Date: Sun, 19 Jun 2022 09:11:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-22 17:11:49.880847
Title: Modeling Transformative AI Risks (MTAIR) Project -- Summary Report
Title（参考訳）: MTAIR(Transformative AI Risks)プロジェクトのモデリング - 概要報告
Authors: Sam Clarke, Ben Cottier, Aryeh Englander, Daniel Eth, David Manheim, Samuel Dylan Martin, Issa Rice
Abstract要約: このレポートは、Cottier氏とShah氏による以前の図に基づいており、いくつかの説明とともに、視覚的に重要な不一致(クラックス)をいくつか説明した。このモデルは、アナロジーと人工知能に関する一般的な以前の信念による推論に関する議論から始まる。さまざまなパスのモデルをレイアウトし、ハイレベルなマシンインテリジェンスのためのテクノロジーと、これらのシステムの能力の進歩のモデルを構築している。このモデルは、学習した最適化の問題や、機械学習システムがメザ最適化を作成するかどうかについても特に注目している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This report outlines work by the Modeling Transformative AI Risk (MTAIR) project, an attempt to map out the key hypotheses, uncertainties, and disagreements in debates about catastrophic risks from advanced AI, and the relationships between them. This builds on an earlier diagram by Ben Cottier and Rohin Shah which laid out some of the crucial disagreements ("cruxes") visually, with some explanation. Based on an extensive literature review and engagement with experts, the report explains a model of the issues involved, and the initial software-based implementation that can incorporate probability estimates or other quantitative factors to enable exploration, planning, and/or decision support. By gathering information from various debates and discussions into a single more coherent presentation, we hope to enable better discussions and debates about the issues involved. The model starts with a discussion of reasoning via analogies and general prior beliefs about artificial intelligence. Following this, it lays out a model of different paths and enabling technologies for high-level machine intelligence, and a model of how advances in the capabilities of these systems might proceed, including debates about self-improvement, discontinuous improvements, and the possibility of distributed, non-agentic high-level intelligence or slower improvements. The model also looks specifically at the question of learned optimization, and whether machine learning systems will create mesa-optimizers. The impact of different safety research on the previous sets of questions is then examined, to understand whether and how research could be useful in enabling safer systems. Finally, we discuss a model of different failure modes and loss of control or takeover scenarios.
Abstract（参考訳）: このレポートは、高度なaiによる破滅的リスクとそれらの関係に関する議論における重要な仮説、不確実性、不一致をマッピングする試みであるmodeling transformative ai risk(mtair)プロジェクトの成果を概説する。これはBen Cottier氏とRohin Shah氏による以前の図の上に構築されている。広範な文献レビューと専門家との関わりに基づき、報告書は関連する問題のモデルと、確率推定やその他の定量的要素を組み込んだ最初のソフトウェアベースの実装を説明し、探索、計画、および/または決定支援を可能にする。さまざまな議論や議論から情報を単一の一貫性のあるプレゼンテーションに集めることで、より優れた議論や問題に関する議論を可能にしたいと思っています。このモデルは、アナロジーと人工知能に関する一般的な以前の信念による推論に関する議論から始まる。続いて、異なる経路のモデルとハイレベルなマシンインテリジェンスのための技術の実現、そして、これらのシステムの能力の進歩がどのように進行するかのモデル、例えば、自己改善、不連続的な改善、分散、非アゲネスなハイレベルインテリジェンスの可能性、あるいはより遅い改善に関する議論を配置する。このモデルはまた、学習された最適化の問題と、機械学習システムがmesa最適化を作成するかどうかを特に検討している。従来の問題に対する異なる安全研究の影響について検討し、より安全なシステムの実現にどのように研究が役立つかを明らかにする。最後に、異なる障害モードのモデルと制御や乗っ取りシナリオの喪失について論じる。

関連論文リスト

A Conjecture on a Fundamental Trade-Off between Certainty and Scope in Symbolic and Generative AI [0.0]
論文では、AIシステムにおける証明可能な正しさと広範なデータマッピング能力の基本的なトレードオフを定式化する予想を紹介している。この暗黙のトレードオフを明確化し、厳密な検証にオープンにすることで、この予想は、エンジニアリングの野望とAIに対する哲学的な期待の両方を大きく変えた。
論文参考訳（メタデータ） (2025-06-11T19:18:13Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
Unified Explanations in Machine Learning Models: A Perturbation Approach [0.0]
XAIとモデリング技術の不整合は、これらの説明可能性アプローチの有効性に疑念を投げかけるという望ましくない効果をもたらす可能性がある。我々はXAI, SHapley Additive exPlanations (Shap) において, 一般的なモデルに依存しない手法に対する系統的摂動解析を提案する。我々は、一般的な機械学習とディープラーニングの手法のスイートと、静的ケースホールドで生成された説明の正確さを定量化するためのメトリクスの中で、動的推論の設定において、相対的な特徴重要度を生成するアルゴリズムを考案した。
論文参考訳（メタデータ） (2024-05-30T16:04:35Z)
The Transformation Risk-Benefit Model of Artificial Intelligence: Balancing Risks and Benefits Through Practical Solutions and Use Cases [0.0]
筆者らは「人工知能の変換リスクベネフィットモデル」と呼ばれる新しい枠組みを提案する。モデルの特徴を利用することで、メリットがリスクを上回る実践的で革新的なソリューションを強調します。
論文参考訳（メタデータ） (2024-04-11T19:19:57Z)
ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文参考訳（メタデータ） (2023-11-02T22:17:03Z)
Predictable Artificial Intelligence [77.1127726638209]
本稿では予測可能なAIのアイデアと課題を紹介する。それは、現在および将来のAIエコシステムの重要な妥当性指標を予測できる方法を探る。予測可能性を達成することは、AIエコシステムの信頼、責任、コントロール、アライメント、安全性を促進するために不可欠である、と私たちは主張する。
論文参考訳（メタデータ） (2023-10-09T21:36:21Z)
Multi-Agent Verification and Control with Probabilistic Model Checking [4.56877715768796]
確率的モデルチェック(probabilistic model check)は、ソフトウェアやハードウェアシステムに関する公式な自動推論手法である。論理学、オートマトン、グラフ理論から最適化、数値法、制御に至るまで、様々な分野のアイデアと技術に基づいて構築される。近年ではゲーム理論のアイデアを統合するために確率的モデル検査も拡張されている。
論文参考訳（メタデータ） (2023-08-05T09:31:32Z)
Designing explainable artificial intelligence with active inference: A framework for transparent introspection and decision-making [0.0]
我々は、アクティブ推論がどのようにして説明可能なAIシステムの設計に活用できるかについて議論する。能動推論を用いた説明可能なAIシステムのためのアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-06-06T21:38:09Z)
Arguments about Highly Reliable Agent Designs as a Useful Path to Artificial Intelligence Safety [0.0]
HRAD(Highly Reliable Agent Designs)は、最も議論の的かつ野心的なアプローチの一つである。我々は,(1)付随効用,(2)脱融合,(3)正確な仕様,(4)予測の議論をタイトルにした。本稿では,出版・非公式文献のレビューに基づいて,その前提と主張を論じるとともに,その話題に関する立場を述べた専門家も紹介する。
論文参考訳（メタデータ） (2022-01-09T07:42:37Z)
KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文参考訳（メタデータ） (2021-12-16T04:37:10Z)
CausalCity: Complex Simulations with Agency for Causal Discovery and Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文参考訳（メタデータ） (2021-06-25T00:21:41Z)
Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文参考訳（メタデータ） (2021-06-14T20:48:48Z)
Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文参考訳（メタデータ） (2020-10-26T16:00:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。