Fugu-MT 論文翻訳(概要): A sketch of an AI control safety case

論文の概要: A sketch of an AI control safety case

arxiv url: http://arxiv.org/abs/2501.17315v1
Date: Tue, 28 Jan 2025 21:52:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 22:32:42.473627
Title: A sketch of an AI control safety case
Title（参考訳）: AI制御安全ケースのスケッチ
Authors: Tomek Korbak, Joshua Clymer, Benjamin Hilton, Buck Shlegeris, Geoffrey Irving,
Abstract要約: LLMエージェントが障害を引き起こすためのキャパシティが向上するにつれて、AI開発者は、安全であることを正当化するために監視などのコントロール手段をますます頼りにしている。開発者が"コントロールセーフティケース"を構築する方法についてスケッチします。この安全ケーススケッチは、危険な能力を持つLLMエージェントが安全にデプロイ可能であることを示すために使用できる、より具体的な議論への一歩です。
参考スコア（独自算出の注目度）: 3.753791609999324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As LLM agents gain a greater capacity to cause harm, AI developers might increasingly rely on control measures such as monitoring to justify that they are safe. We sketch how developers could construct a "control safety case", which is a structured argument that models are incapable of subverting control measures in order to cause unacceptable outcomes. As a case study, we sketch an argument that a hypothetical LLM agent deployed internally at an AI company won't exfiltrate sensitive information. The sketch relies on evidence from a "control evaluation,"' where a red team deliberately designs models to exfiltrate data in a proxy for the deployment environment. The safety case then hinges on several claims: (1) the red team adequately elicits model capabilities to exfiltrate data, (2) control measures remain at least as effective in deployment, and (3) developers conservatively extrapolate model performance to predict the probability of data exfiltration in deployment. This safety case sketch is a step toward more concrete arguments that can be used to show that a dangerously capable LLM agent is safe to deploy.
Abstract（参考訳）: LLMエージェントが障害を引き起こすためのキャパシティが向上するにつれて、AI開発者は、安全であることを正当化するために監視などのコントロール手段をますます頼りにしている。これは、モデルが受け入れ難い結果をもたらすために制御手段を変換できないという構造化された議論である。ケーススタディでは、AI企業の内部に展開する仮説的LLMエージェントが機密情報を流出しないという議論をスケッチする。このスケッチは、レッドチームが意図的にモデルを設計して、デプロイ環境のプロキシでデータを抽出する、"コントロール評価"のエビデンスに依存している。安全性のケースは,(1) レッドチームがデータの流出を適切に引き起こすモデル能力,(2) コントロール対策は,少なくともデプロイメントにおいて有効であり,(3) 開発者は,展開中のデータ流出の確率を予測するために,モデルパフォーマンスを保守的にエクスポーレーションする。この安全ケーススケッチは、危険な能力を持つLLMエージェントが安全にデプロイ可能であることを示すために使用できる、より具体的な議論への一歩です。

関連論文リスト

Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking [8.970702398918924]
大規模言語モデル(LLM)エージェントは、ロボット工学、仮想アシスタント、Webオートメーションといった分野にまたがる強力な自律能力を示す。 AgentSpecのような既存のルールベースの執行システムは、リアクティブな安全ルールの開発に重点を置いている。本稿では,確率的到達可能性解析に基づくプロアクティブ実行時実行フレームワークPro2Guardを提案する。
論文参考訳（メタデータ） (2025-08-01T10:24:47Z)
ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。 LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。推論に基づく安全アライメントフレームワークARMORを提案する。
論文参考訳（メタデータ） (2025-07-14T09:05:54Z)
How to evaluate control measures for LLM agents? A trajectory from today to superintelligence [4.027240141373031]
我々は、AI能力の向上にレッドチームの余裕を適応するためのフレームワークを提案する。エージェントの実際の能力プロファイルの知識が比例制御評価にどのように役立つかを示す。
論文参考訳（メタデータ） (2025-04-07T16:52:52Z)
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:16Z)
Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats [22.843390303635655]
大規模言語モデルが意図的に回避しようとする場合でも,安全対策が有効かどうかを検討する。マイクロプロトコールの選択には、適応マクロプロトコールを使用する2段階のデプロイメントフレームワークを使用する。有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
論文参考訳（メタデータ） (2024-11-26T18:58:20Z)
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文参考訳（メタデータ） (2024-10-09T12:09:30Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents [7.33319373357049]
本稿では,Deep Reinforcement Learning (DRL)エージェント用に特別に設計されたブラックボックス安全監視手法SMARLAを紹介する。 SMARLAは機械学習を利用して、実行中のエージェントの動作を観察し、安全違反を予測する。実験の結果、SMARLAは偽陽性率の低い安全違反を予測するのに正確であり、違反が起こる前にエージェントの実行の途中で早期に違反を予測することができることが明らかになった。
論文参考訳（メタデータ） (2023-08-03T21:08:51Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。