論文の概要: Position: AI Safety Must Embrace an Antifragile Perspective
- arxiv url: http://arxiv.org/abs/2509.13339v1
- Date: Thu, 11 Sep 2025 14:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.534471
- Title: Position: AI Safety Must Embrace an Antifragile Perspective
- Title(参考訳): AIの安全性は反フレキシブルな視点で守らなければならない
- Authors: Ming Jin, Hyunin Lee,
- Abstract要約: このポジションペーパーは、現代のAI研究は安全に対する反脆弱な視点を採用する必要があると主張している。
我々は、オープンエンドMLシステムの長期的な信頼性のために、アンチフランジのアプローチが重要であると論じる。
- 参考スコア(独自算出の注目度): 8.304578789644124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper contends that modern AI research must adopt an antifragile perspective on safety -- one in which the system's capacity to guarantee long-term AI safety such as handling rare or out-of-distribution (OOD) events expands over time. Conventional static benchmarks and single-shot robustness tests overlook the reality that environments evolve and that models, if left unchallenged, can drift into maladaptation (e.g., reward hacking, over-optimization, or atrophy of broader capabilities). We argue that an antifragile approach -- Rather than striving to rapidly reduce current uncertainties, the emphasis is on leveraging those uncertainties to better prepare for potentially greater, more unpredictable uncertainties in the future -- is pivotal for the long-term reliability of open-ended ML systems. In this position paper, we first identify key limitations of static testing, including scenario diversity, reward hacking, and over-alignment. We then explore the potential of antifragile solutions to manage rare events. Crucially, we advocate for a fundamental recalibration of the methods used to measure, benchmark, and continually improve AI safety over the long term, complementing existing robustness approaches by providing ethical and practical guidelines towards fostering an antifragile AI safety community.
- Abstract(参考訳): このポジションペーパーでは、現代のAI研究は安全に対する反脆弱な視点を採用する必要がある、と論じている。
従来の静的ベンチマークとシングルショットロバストネステストは、環境が進化し、もしもそのままにしていれば、モデルが不適応(例えば、報酬のハッキング、過度な最適化、より広範な能力の萎縮)に陥る、という現実を見落としている。
我々は、現在の不確実性を迅速に削減しようとするのではなく、これらの不確実性を活用して、将来的にはより大きく予測不可能な不確実性に備えることが、オープンエンドMLシステムの長期的な信頼性の鍵となる、と論じている。
本稿では,まず,シナリオの多様性,報酬のハッキング,過度な調整など,静的テストの重要な制約を特定する。
次に、稀な事象を管理するための反脆弱な解決策の可能性を探る。
我々は、AIの安全性を長期にわたって測定、ベンチマーク、継続的な改善に使用する手法の根本的な見直しを提唱し、反脆弱なAI安全コミュニティを育成するための倫理的かつ実践的なガイドラインを提供することによって、既存の堅牢性アプローチを補完する。
関連論文リスト
- CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization [47.30677525394649]
モデルレス強化学習における2つの確立された技術間の相互作用を解析する。
本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りを生じさせることを示す。
エントロピー正則化とロバストネスの関連性は、さらなる実証的・理論的研究の道のりとして有望である。
論文 参考訳(メタデータ) (2025-06-12T16:34:19Z) - Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。
複雑な運用環境での安全性確保は依然として大きな課題である。
このパースペクティブは、安全で大規模に実施されたAIシステムを安全クリティカルなアプリケーションに採用するための道筋を提供する。
論文 参考訳(メタデータ) (2025-06-05T15:46:25Z) - Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL [14.767273209148545]
CVAEに基づくペシミズム(FASP)を用いたオフラインセーフ強化学習フレームワークを提案する。
我々はハミルトン・ヤコビ(H-J)リーチビリティ解析を用いて信頼性の高い安全ラベルを生成する。
また,報酬とコストのQ値の推定にも悲観的推定法を用いる。
論文 参考訳(メタデータ) (2025-05-13T02:32:49Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z) - Safe Active Dynamics Learning and Control: A Sequential
Exploration-Exploitation Framework [30.58186749790728]
本研究では,力学の不確実性の存在下での安全性を維持するための理論的に正当なアプローチを提案する。
我々のフレームワークは、常に全ての制約の高確率満足度を保証します。
この理論解析は、オンライン適応能力を改善する最終層メタラーニングモデルの2つの正則化を動機付けている。
論文 参考訳(メタデータ) (2020-08-26T17:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。