論文の概要: Human Control: Definitions and Algorithms
- arxiv url: http://arxiv.org/abs/2305.19861v1
- Date: Wed, 31 May 2023 13:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:22:53.209894
- Title: Human Control: Definitions and Algorithms
- Title(参考訳): 人間制御:定義とアルゴリズム
- Authors: Ryan Carey and Tom Everitt
- Abstract要約: 閉鎖命令性は, 適切な停止動作, 人間の自律性維持, ユーザの危害の回避を示唆することを示す。
また,非閉塞性と閉鎖アライメントの関連概念,従来提案されていた3つの人体制御アルゴリズム,および1つの新しいアルゴリズムを分析した。
- 参考スコア(独自算出の注目度): 11.536162323162099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can humans stay in control of advanced artificial intelligence systems?
One proposal is corrigibility, which requires the agent to follow the
instructions of a human overseer, without inappropriately influencing them. In
this paper, we formally define a variant of corrigibility called shutdown
instructability, and show that it implies appropriate shutdown behavior,
retention of human autonomy, and avoidance of user harm. We also analyse the
related concepts of non-obstruction and shutdown alignment, three previously
proposed algorithms for human control, and one new algorithm.
- Abstract(参考訳): 人間はどのようにして高度な人工知能システムを制御できるのか?
一つの提案は調整可能性であり、エージェントは不適切な影響を与えることなく、人間の監督者の指示に従うことを要求する。
本稿では,遮断操作性(disrupt instructability)と呼ばれるコリグビリティの変種を形式的に定義し,適切なシャットダウン行動,人間の自律性保持,ユーザ害の回避を暗示する。
また,ノンオブストラクションとシャットダウンアライメントの関連概念,以前に提案していた3つの人間制御アルゴリズム,および1つの新しいアルゴリズムの解析を行った。
関連論文リスト
- Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Persuasion, Delegation, and Private Information in Algorithm-Assisted
Decisions [0.0]
プリンシパルは、バイナリ状態の公開観測可能な予測を生成するアルゴリズムを設計する。
彼女は、予測に基づいて直接行動するか、または、私的な情報を持つエージェントに決定を委譲するかを判断しなければならない。
このような環境における予測アルゴリズムとデリゲートルールの最適設計について検討する。
論文 参考訳(メタデータ) (2024-02-14T18:32:30Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions [80.34972679938483]
不完全な機械学習予測にも拘わらず、安全な自律的意思決定を実現するためのフレームワークであるコンフォーマル決定理論を導入する。
私たちのアルゴリズムが生み出す決定は、リスクが低いという証明可能な統計的保証があるという意味では安全です。
実験は、人間のまわりのロボットの動き計画、自動株式取引、ロボット製造において、我々のアプローチの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-09T17:59:30Z) - Characterizing Manipulation from AI Systems [7.344068411174193]
我々は、他の分野からの操作に関する文献の上に構築し、操作の可能な概念の空間を特徴づける。
本稿では,特徴量に基づく操作の定義を提案する。
第3に,不正や強制など,操作と関連する概念の関連性について論じる。
論文 参考訳(メタデータ) (2023-03-16T15:19:21Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning [57.53138994155612]
強化学習の長期的な目標は、世界で自律的に対話し学習できるエージェントを設計することである。
重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆状態の存在である。
本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:24Z) - Meaningful human control over AI systems: beyond talking the talk [8.351027101823705]
私たちは、AIベースのシステムが有意義な人間の制御下にある必要がある4つの特性を特定します。
第一に、人間とAIアルゴリズムが相互作用するシステムは、道徳的にロードされた状況の明確に定義された領域を持つべきである。
第2に、システム内の人間とAIエージェントは、適切かつ相互に互換性のある表現を持つべきである。
第三に、人間に帰属する責任は、その人のシステムを支配する能力と権限に相応すべきである。
論文 参考訳(メタデータ) (2021-11-25T11:05:37Z) - The Flaws of Policies Requiring Human Oversight of Government Algorithms [2.741266294612776]
政府のアルゴリズムを規制する中心的なメカニズムとして、人的監督から制度的監督への転換を提案する。
まず、政府機関はアルゴリズムを意思決定に組み込むのが適切であることを正当化しなければならない。
第二に、これらの正当化は、政府機関がアルゴリズムを採用する前に、民主的な公開レビューと承認を受けなければならない。
論文 参考訳(メタデータ) (2021-09-10T18:58:45Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。