論文の概要: An alignment safety case sketch based on debate
- arxiv url: http://arxiv.org/abs/2505.03989v3
- Date: Fri, 23 May 2025 16:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.984121
- Title: An alignment safety case sketch based on debate
- Title(参考訳): 議論に基づくアライメント安全事例スケッチ
- Authors: Marie Davidsen Buhl, Jacob Pfau, Benjamin Hilton, Geoffrey Irving,
- Abstract要約: 提案された解決策の1つは、システムの出力の欠陥を議論を通じて指摘するために、別の超人的システムを活用することである。
本稿では,AIの安全性に関する議論の価値について概説する。
- 参考スコア(独自算出の注目度): 3.2504831918078168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If AI systems match or exceed human capabilities on a wide range of tasks, it may become difficult for humans to efficiently judge their actions -- making it hard to use human feedback to steer them towards desirable traits. One proposed solution is to leverage another superhuman system to point out flaws in the system's outputs via a debate. This paper outlines the value of debate for AI safety, as well as the assumptions and further research required to make debate work. It does so by sketching an ``alignment safety case'' -- an argument that an AI system will not autonomously take actions which could lead to egregious harm, despite being able to do so. The sketch focuses on the risk of an AI R\&D agent inside an AI company sabotaging research, for example by producing false results. To prevent this, the agent is trained via debate, subject to exploration guarantees, to teach the system to be honest. Honesty is maintained throughout deployment via online training. The safety case rests on four key claims: (1) the agent has become good at the debate game, (2) good performance in the debate game implies that the system is mostly honest, (3) the system will not become significantly less honest during deployment, and (4) the deployment context is tolerant of some errors. We identify open research problems that, if solved, could render this a compelling argument that an AI system is safe.
- Abstract(参考訳): もしAIシステムが広範囲のタスクで人間の能力と一致したり、超えたりすると、人間の行動を効率的に判断することが難しくなる。人間のフィードバックを使って望ましい特性に向かって判断することが難しい。ある提案された解決策は、システムのアウトプットに欠陥を指摘するために、別の超人的システムを活用することである。この記事では、AIの安全性に関する議論の価値と、議論作業を行うために必要な仮定と研究について概説する。これは「アライメント・セーフティケース」をスケッチすることで実現される。これはAIシステムが自律的に行動を取ることは不可能であり、それを行うことができるにもかかわらず、過度な害をもたらす可能性があるという主張である。
このスケッチは、AI企業内のAI R&Dエージェントのリスクに焦点を当てている。
これを防ぐため、エージェントは、調査保証の対象となる議論を通じて訓練され、システムに誠実さを教える。
誠実さはオンライントレーニングを通じて展開を通して維持される。
安全性の主張は,(1)エージェントが議論ゲームに長けていること,(2)議論ゲームにおける優れたパフォーマンスは,システムがほぼ正直であること,(3)デプロイ中にシステムがかなり正直になることはないこと,(4)デプロイメントコンテキストがいくつかのエラーに寛容であること,の4つのキークレームに当てはまる。
オープンな研究の問題は、解決すれば、AIシステムが安全である、という説得力のある議論が引き起こされる可能性がある。
関連論文リスト
- Taking AI Welfare Seriously [0.5617572524191751]
我々は、近い将来、一部のAIシステムが意識的または堅牢に作用する可能性があると論じている。
これは近い将来の問題であり、AI企業や他のアクターはそれを真剣に取り始める責任がある。
論文 参考訳(メタデータ) (2024-11-04T17:57:57Z) - Towards evaluations-based safety cases for AI scheming [37.399946932069746]
本論では,安全事例がスケジューリングに有効である,という3つの論点を提案する。
第一に、フロンティアAIシステムの開発者は、AIシステムはスケジューリングができないと主張するかもしれない。
第二に、AIシステムはスケジューリングによって害を与えることができない、という主張もある。
第三に、AIシステムが意図的にそれらを覆そうと試みても、AIシステムを取り巻く制御手段が受け入れられない結果を防ぐと論じることもできる。
論文 参考訳(メタデータ) (2024-10-29T17:55:29Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。
電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。
第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文 参考訳(メタデータ) (2024-01-27T19:34:13Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Arguments about Highly Reliable Agent Designs as a Useful Path to
Artificial Intelligence Safety [0.0]
HRAD(Highly Reliable Agent Designs)は、最も議論の的かつ野心的なアプローチの一つである。
我々は,(1)付随効用,(2)脱融合,(3)正確な仕様,(4)予測の議論をタイトルにした。
本稿では,出版・非公式文献のレビューに基づいて,その前提と主張を論じるとともに,その話題に関する立場を述べた専門家も紹介する。
論文 参考訳(メタデータ) (2022-01-09T07:42:37Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。
AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。
AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文 参考訳(メタデータ) (2020-07-18T15:31:29Z) - On Adversarial Examples and Stealth Attacks in Artificial Intelligence
Systems [62.997667081978825]
本稿では,汎用人工知能(AI)システムに対する2種類の多元性行動の評価と分析を行うための公式な枠組みを提案する。
最初のクラスは、逆例を含み、誤分類を引き起こす入力データの小さな摂動の導入を懸念する。
第2のクラスは、ここで初めて導入され、ステルス攻撃と名付けられたもので、AIシステム自体に対する小さな摂動を伴う。
論文 参考訳(メタデータ) (2020-04-09T10:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。