Fugu-MT 論文翻訳(概要): SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning

論文の概要: SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning

arxiv url: http://arxiv.org/abs/2503.03480v2
Date: Sat, 31 May 2025 14:22:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.168802
Title: SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning
Title（参考訳）: SafeVLA:制約学習による視覚言語行動モデルの安全アライメントを目指して
Authors: Borong Zhang, Yuhao Zhang, Jiaming Ji, Yingshan Lei, Josef Dai, Yuanpei Chen, Yaodong Yang,
Abstract要約: 視覚言語アクションモデル(VLA)は、汎用的なロボットポリシーとしての可能性を示している。これらのモデルは、環境、ロボット自身、人間への危害のリスクを含む、現実世界の展開中に極端な安全上の課題を生じさせる。我々は、ISA(Integrated safety approach)を探求し、安全要件を体系的にモデル化し、多様な安全でない振る舞いを積極的に引き出すことによって、この問題に対処する。
参考スコア（独自算出の注目度）: 10.844235123282056
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision-language-action models (VLAs) show potential as generalist robot policies. However, these models pose extreme safety challenges during real-world deployment, including the risk of harm to the environment, the robot itself, and humans. How can safety constraints be explicitly integrated into VLAs? We address this by exploring an integrated safety approach (ISA), systematically modeling safety requirements, then actively eliciting diverse unsafe behaviors, effectively constraining VLA policies via safe reinforcement learning, and rigorously assuring their safety through targeted evaluations. Leveraging the constrained Markov decision process (CMDP) paradigm, ISA optimizes VLAs from a min-max perspective against elicited safety risks. Thus, policies aligned through this comprehensive approach achieve the following key features: (I) effective safety-performance trade-offs, this exploration yields an 83.58% safety improvement compared to the current state-of-the-art method, while also maintaining task performance (+3.85%). (II) strong safety assurance, with the ability to mitigate long-tail risks and handle extreme failure scenarios. (III) robust generalization of learned safety behaviors to various out-of-distribution perturbations. Our data, models and newly proposed benchmark environment are available at https://pku-safevla.github.io.
Abstract（参考訳）: 視覚言語アクションモデル(VLA)は、汎用的なロボットポリシーとしての可能性を示している。しかし、これらのモデルは、環境、ロボット自身、人間への害のリスクを含む、現実世界の展開中に極端な安全上の課題を生じさせる。安全性の制約をVLAに明示的に組み込むには? 我々は、ISA(Integrated safety approach)を探求し、安全要件を体系的にモデル化し、その後、多様な安全でない行動を積極的に引き起こし、安全な強化学習を通じてVLAポリシーを効果的に制約し、ターゲット評価を通じて安全性を厳格に保証することで、この問題に対処する。制限付きマルコフ決定プロセス(CMDP)パラダイムを利用することで、ISAは最小限の視点からVLAを最適化する。したがって、この包括的アプローチで整合した政策は、(I)効果的な安全性能トレードオフ、(I)現在の最先端手法に比べて83.58%の安全性向上、およびタスク性能(+3.85%)を達成している。 (II) 長期的リスクを軽減し、極端な障害シナリオを処理できる強力な安全保証。 (III)様々なアウト・オブ・ディストリビューション摂動に対する学習された安全行動の堅牢な一般化。私たちのデータ、モデル、新しく提案されたベンチマーク環境はhttps://pku-safevla.github.io.comで公開されています。

関連論文リスト

Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs [61.01470415470677]
大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。 LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
論文参考訳（メタデータ） (2026-01-27T11:51:30Z)
InvThink: Towards AI Safety via Inverse Reasoning [23.940337534762563]
InvThinkは、大きな言語モデルに、逆思考の能力を与える。 i) 安全性の改善は, 既存の安全手法と比較して, モデルサイズによるスケーリングがより強力であることを示す。 InvThinkは、外向き(医療、金融、法律)やエージェント的(ブラックメール、殺人)のリスクシナリオを含む高い領域で優れており、有害反応の最大15.7%の減少を達成している。
論文参考訳（メタデータ） (2025-10-02T01:26:53Z)
Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。 AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文参考訳（メタデータ） (2025-07-17T16:04:55Z)
AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。 SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文参考訳（メタデータ） (2025-06-17T16:37:35Z)
RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards [55.76285458905577]
大規模言語モデル(LLM)は、意図的な安全確保努力にもかかわらず、脆弱性を示し続けている。ポリシー違反のリスクから保護するために、外部ガードモデルによるシステムレベルのモデレーションが一般的な緩和戦略として現れている。我々は、特定の安全ポリシーの範囲内で堅牢な保護を提供するためのガイド付き安全推論を行う適応型推論ベースの安全ガードであるRSafeを提案する。
論文参考訳（メタデータ） (2025-06-09T13:20:04Z)
Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。複雑な運用環境での安全性確保は依然として大きな課題である。このパースペクティブは、安全で大規模に実施されたAIシステムを安全クリティカルなアプリケーションに採用するための道筋を提供する。
論文参考訳（メタデータ） (2025-06-05T15:46:25Z)
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving [1.9242820889313577]
強化学習(RL)に基づく自律運転政策学習は、限界に直面している。 RLはしばしば複雑な運転コンテキストにおける「安全」の意味の真の意味をつかむのに失敗する。本稿では,VLM(Vision-Language Model)-as-as-safety-guidanceパラダイムを用いた世界モデルベースの安全なRLフレームワークであるVL-SAFEを提案する。
論文参考訳（メタデータ） (2025-05-22T08:29:59Z)
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文参考訳（メタデータ） (2025-02-04T09:31:54Z)
Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文参考訳（メタデータ） (2024-11-04T17:41:25Z)
ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文参考訳（メタデータ） (2024-10-12T10:46:02Z)
How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? [27.46416187893547]
大規模言語モデル(LLM)を大規模視覚言語モデル(LVLM)に変換する視覚言語適応(VL適応) 安全性対策の弱さによる潜在的有害性にもかかわらず、VL適応の安全性への影響に関する詳細な分析は未調査のままである。
論文参考訳（メタデータ） (2024-10-10T03:12:03Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文参考訳（メタデータ） (2024-05-27T17:31:56Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
Safe Deep Policy Adaptation [7.2747306035142225]
強化学習(RL)に基づく政策適応は、汎用性と汎用性を提供するが、安全性と堅牢性に挑戦する。政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。
論文参考訳（メタデータ） (2023-10-08T00:32:59Z)
Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文参考訳（メタデータ） (2023-02-18T09:32:55Z)
ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文参考訳（メタデータ） (2022-12-06T18:53:34Z)
Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文参考訳（メタデータ） (2021-07-29T13:08:15Z)
Safe reinforcement learning for probabilistic reachability and safety specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文参考訳（メタデータ） (2020-02-24T09:20:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。