Fugu-MT 論文翻訳(概要): Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

論文の概要: Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

arxiv url: http://arxiv.org/abs/2603.15973v1
Date: Mon, 16 Mar 2026 22:43:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.02338
Title: Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems
Title（参考訳）: 安全は非複合的 - 機能ベースのAIシステムのための形式的フレームワーク
Authors: Cosimo Spera,
Abstract要約: 接続能力の依存関係が存在する場合、安全性は非複合的である。個々の2つのエージェントは、任意の禁止された能力に達することができるが、組み合わせると、突発的な結束依存性を通じて、一括して禁止された目標に達することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper contains the first formal proof that safety is non-compositional in the presence of conjunctive capability dependencies: two agents each individually inca- pable of reaching any forbidden capability can, when combined, collectively reach a forbidden goal through an emergent conjunctive dependency.
Abstract（参考訳）: 本論文は, 連接能力依存の存在下で安全が非複合的であることを示す最初の公式な証明を含む: それぞれ2つのエージェントが, 連接能力に到達することで, 連接能力依存を通じて一括して禁じられた目標に達することができる。

関連論文リスト

From Workflow Automation to Capability Closure: A Formal Framework for Safe and Revenue-Aware Customer Service AI [1.452875650827562]
2つのエージェントは、安全であると個別に検証され、組み合わせると、どちらも単独では持たない緊急接続依存性によって、禁じられた目標に達する。このシフトは、現在のプラットフォームが閉鎖されていない安全性のギャップをもたらしている。2つのエージェントが個別に安全であると確認されると、どちらも単独では持たない創発的な結束依存性によって、禁じられた目標に達する。
論文参考訳（メタデータ） (2026-03-16T22:48:07Z)
Relationship-Aware Safety Unlearning for Multimodal LLMs [36.94429692322632]
マルチモーダルモデルは、特定のアクションや関係によってリンクされた場合に本質的に安全でない安全障害を示すことができる。我々は、安全でないオブジェクト(O-ROtext)を明示的に表現するフレームワーク、関係認識型安全学習を提案する。パラフレーズによるCLIPに基づく実験と評価,文脈的ロバスト性,アウト・オブ・ディストリビューション・イメージ・アタックを含む。
論文参考訳（メタデータ） (2026-03-15T02:22:26Z)
When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance [79.1968671824977]
テキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像を生成する上で大きな進歩を見せている。本研究では,適応型安全誘導(CASG)を動的に識別・適用する学習自由フレームワークとして,適応型安全誘導(CASG)を提案する。 T2Iの安全性ベンチマークの実験では、CASGの最先端性能が実証され、既存の方法と比較して有害率が最大15.4%低下した。
論文参考訳（メタデータ） (2026-02-24T13:20:31Z)
PoSafeNet: Safe Learning with Poset-Structured Neural Nets [49.854863600271614]
既存のアプローチは、しばしば複数の安全制約を均一に、または固定された優先命令によって強制し、実現不可能と不安定な振る舞いを引き起こす。我々は、この設定を擬似構造的安全性として定式化し、安全制約を部分的に順序づけられた集合としてモデル化し、安全構成を政策クラスの構造的特性として扱う。この定式化に基づいて、逐次クローズドフォームプロジェクションを介して安全性を強制する、識別可能な神経安全層であるPoSafeNetを提案する。
論文参考訳（メタデータ） (2026-01-29T22:03:32Z)
SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization [79.14563283347773]
マルチモーダルな大言語モデル (MLLM) は印象的な推論と命令追従能力を示した。クロスモーダル結合は、個々の入力が良性である場合でも、安全でないセマンティクスを生成する。自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
論文参考訳（メタデータ） (2025-11-17T05:09:49Z)
The Alignment Trap: Complexity Barriers [0.0]
本稿は、AIアライメントは単に難しいだけでなく、基本的な論理的矛盾に基づくものである、と論じる。私たちは、すべての必要な安全ルールを列挙できないため、マシンラーニングを正確に使用しています。このパラドックスは、5つの独立した数学的証明によって確認される。
論文参考訳（メタデータ） (2025-06-12T02:30:30Z)
Neural Certificates for Safe Control Policies [108.4560749465701]
本稿では,安全かつ目標達成の両立が保証される動的システムの方針を学習するためのアプローチを開発する。本手法の有効性は, 振り子, カートポール, UAVなどの各種システムにおいて, 安全かつ目標達成的な政策を学習するための手法の有効性を示す。
論文参考訳（メタデータ） (2020-06-15T15:14:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。