論文の概要: SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning
- arxiv url: http://arxiv.org/abs/2503.03480v2
- Date: Sat, 31 May 2025 14:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.168802
- Title: SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning
- Title(参考訳): SafeVLA:制約学習による視覚言語行動モデルの安全アライメントを目指して
- Authors: Borong Zhang, Yuhao Zhang, Jiaming Ji, Yingshan Lei, Josef Dai, Yuanpei Chen, Yaodong Yang,
- Abstract要約: 視覚言語アクションモデル(VLA)は、汎用的なロボットポリシーとしての可能性を示している。
これらのモデルは、環境、ロボット自身、人間への危害のリスクを含む、現実世界の展開中に極端な安全上の課題を生じさせる。
我々は、ISA(Integrated safety approach)を探求し、安全要件を体系的にモデル化し、多様な安全でない振る舞いを積極的に引き出すことによって、この問題に対処する。
- 参考スコア(独自算出の注目度): 10.844235123282056
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language-action models (VLAs) show potential as generalist robot policies. However, these models pose extreme safety challenges during real-world deployment, including the risk of harm to the environment, the robot itself, and humans. How can safety constraints be explicitly integrated into VLAs? We address this by exploring an integrated safety approach (ISA), systematically modeling safety requirements, then actively eliciting diverse unsafe behaviors, effectively constraining VLA policies via safe reinforcement learning, and rigorously assuring their safety through targeted evaluations. Leveraging the constrained Markov decision process (CMDP) paradigm, ISA optimizes VLAs from a min-max perspective against elicited safety risks. Thus, policies aligned through this comprehensive approach achieve the following key features: (I) effective safety-performance trade-offs, this exploration yields an 83.58% safety improvement compared to the current state-of-the-art method, while also maintaining task performance (+3.85%). (II) strong safety assurance, with the ability to mitigate long-tail risks and handle extreme failure scenarios. (III) robust generalization of learned safety behaviors to various out-of-distribution perturbations. Our data, models and newly proposed benchmark environment are available at https://pku-safevla.github.io.
- Abstract(参考訳): 視覚言語アクションモデル(VLA)は、汎用的なロボットポリシーとしての可能性を示している。
しかし、これらのモデルは、環境、ロボット自身、人間への害のリスクを含む、現実世界の展開中に極端な安全上の課題を生じさせる。
安全性の制約をVLAに明示的に組み込むには?
我々は、ISA(Integrated safety approach)を探求し、安全要件を体系的にモデル化し、その後、多様な安全でない行動を積極的に引き起こし、安全な強化学習を通じてVLAポリシーを効果的に制約し、ターゲット評価を通じて安全性を厳格に保証することで、この問題に対処する。
制限付きマルコフ決定プロセス(CMDP)パラダイムを利用することで、ISAは最小限の視点からVLAを最適化する。
したがって、この包括的アプローチで整合した政策は、(I)効果的な安全性能トレードオフ、(I)現在の最先端手法に比べて83.58%の安全性向上、およびタスク性能(+3.85%)を達成している。
(II) 長期的リスクを軽減し、極端な障害シナリオを処理できる強力な安全保証。
(III)様々なアウト・オブ・ディストリビューション摂動に対する学習された安全行動の堅牢な一般化。
私たちのデータ、モデル、新しく提案されたベンチマーク環境はhttps://pku-safevla.github.io.comで公開されています。
関連論文リスト
- Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? [27.46416187893547]
大規模言語モデル(LLM)を大規模視覚言語モデル(LVLM)に変換する視覚言語適応(VL適応)
安全性対策の弱さによる潜在的有害性にもかかわらず、VL適応の安全性への影響に関する詳細な分析は未調査のままである。
論文 参考訳(メタデータ) (2024-10-10T03:12:03Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Deep Policy Adaptation [7.2747306035142225]
強化学習(RL)に基づく政策適応は、汎用性と汎用性を提供するが、安全性と堅牢性に挑戦する。
政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。
我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-08T00:32:59Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。