論文の概要: SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.03480v1
- Date: Wed, 05 Mar 2025 13:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:27.325304
- Title: SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Safe Reinforcement Learning
- Title(参考訳): セーフVLA:安全強化学習による視覚言語行動モデルの安全アライメントを目指して
- Authors: Borong Zhang, Yuhao Zhang, Jiaming Ji, Yingshan Lei, Josef Dai, Yuanpei Chen, Yaodong Yang,
- Abstract要約: 視覚言語アクションモデル(VLA)に安全性を統合する新しいアルゴリズムであるSafeVLAを提案する。
SafeVLAは、シミュレーション環境で大規模な制約付き学習を採用することで、安全性とタスクパフォーマンスのバランスをとる。
SafeVLAは安全性とタスク性能の両方において最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.844235123282056
- License:
- Abstract: Vision-language-action models (VLAs) have shown great potential as generalist robot policies. However, these models pose urgent safety challenges during deployment, including the risk of physical harm to the environment, the robot itself, and humans. How can safety be explicitly incorporated into VLAs? In this work, we propose SafeVLA, a novel algorithm designed to integrate safety into VLAs, ensuring the protection of the environment, robot hardware and humans in real-world settings. SafeVLA effectively balances safety and task performance by employing large-scale constrained learning within simulated environments. We demonstrate that SafeVLA outperforms the current state-of-the-art method in both safety and task performance, achieving average improvements of 83.58% and 3.85%, respectively, in simulation. By prioritizing safety, our approach eliminates high-risk behaviors and reduces the upper bound of unsafe behaviors to 1/35 of that in the current state-of-the-art, thereby significantly mitigating long-tail risks. Furthermore, the learned safety constraints generalize to diverse, unseen scenarios, including multiple out-of-distribution perturbations and tasks. Our data, models and newly proposed benchmark environment are available at https://sites.google.com/view/pku-safevla.
- Abstract(参考訳): 視覚言語アクションモデル(VLA)は、汎用ロボットポリシーとして大きな可能性を示している。
しかしながら、これらのモデルは、環境、ロボット自身、そして人間に対する物理的危害のリスクを含む、配置中に緊急の安全上の課題を生じさせる。
安全性をVLAに明示的に組み込むには?
本研究では,安全性をVLAに統合し,環境,ロボットハードウェア,人間を現実の環境で保護するための新しいアルゴリズムであるSafeVLAを提案する。
SafeVLAは、シミュレーション環境で大規模な制約付き学習を採用することで、安全性とタスクパフォーマンスのバランスを効果的に保ちます。
SafeVLAは安全性とタスク性能の両方において現在の最先端手法よりも優れており,シミュレーションでは平均83.58%,3.85%の改善が達成されている。
安全性を優先することにより,リスクの高い動作を排除し,安全でない動作の上限を現在の最先端状態の1/35に低減し,長期的リスクを著しく軽減する。
さらに、学習された安全性の制約は、複数のアウト・オブ・ディストリビューションの摂動やタスクを含む、多様な、目に見えないシナリオに一般化される。
私たちのデータ、モデル、新しく提案されたベンチマーク環境はhttps://sites.google.com/view/pku-safevla.comで公開されています。
関連論文リスト
- Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? [27.46416187893547]
大規模言語モデル(LLM)を大規模視覚言語モデル(LVLM)に変換する視覚言語適応(VL適応)
安全性対策の弱さによる潜在的有害性にもかかわらず、VL適応の安全性への影響に関する詳細な分析は未調査のままである。
論文 参考訳(メタデータ) (2024-10-10T03:12:03Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Deep Policy Adaptation [7.2747306035142225]
強化学習(RL)に基づく政策適応は、汎用性と汎用性を提供するが、安全性と堅牢性に挑戦する。
政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。
我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-08T00:32:59Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。