Fugu-MT 論文翻訳(概要): VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer

論文の概要: VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer

arxiv url: http://arxiv.org/abs/2512.11891v1
Date: Tue, 09 Dec 2025 16:53:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.317111
Title: VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer
Title（参考訳）: VLSA: プラグ・アンド・プレイ型安全拘束層を用いたビジョン・ランゲージ・アクションモデル
Authors: Songqiao Hu, Zeyi Liu, Shuang Liu, Jun Cen, Zihan Meng, Xiao He,
Abstract要約: 本稿では、制御バリア機能を介して構成された安全制約層を含むAEGIS(Vision-Language-Safe Action)アーキテクチャを提案する。 AEGISは既存のVLAモデルと直接統合し、元の命令追従性能を維持しながら、理論上の保証で安全性を向上させる。コード、モデル、ベンチマークデータセットをhttps://vlsa-aegis.io/で公開しています。
参考スコア（独自算出の注目度）: 11.732930536131883
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in generalizing across diverse robotic manipulation tasks. However, deploying these models in unstructured environments remains challenging due to the critical need for simultaneous task compliance and safety assurance, particularly in preventing potential collisions during physical interactions. In this work, we introduce a Vision-Language-Safe Action (VLSA) architecture, named AEGIS, which contains a plug-and-play safety constraint (SC) layer formulated via control barrier functions. AEGIS integrates directly with existing VLA models to improve safety with theoretical guarantees, while maintaining their original instruction-following performance. To evaluate the efficacy of our architecture, we construct a comprehensive safety-critical benchmark SafeLIBERO, spanning distinct manipulation scenarios characterized by varying degrees of spatial complexity and obstacle intervention. Extensive experiments demonstrate the superiority of our method over state-of-the-art baselines. Notably, AEGIS achieves a 59.16% improvement in obstacle avoidance rate while substantially increasing the task execution success rate by 17.25%. To facilitate reproducibility and future research, we make our code, models, and the benchmark datasets publicly available at https://vlsa-aegis.github.io/.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、多様なロボット操作タスクにまたがる高度な機能を示す。しかしながら、これらのモデルを非構造化環境にデプロイすることは、特に物理的相互作用における潜在的な衝突を防止するために、同時タスクコンプライアンスと安全保証が不可欠であるため、依然として困難である。本研究では,制御バリア機能を介して構成されたプラグイン・アンド・プレイ安全制約 (SC) 層を含む,AEGIS と呼ばれるビジョン・ランゲージ・セーフ・アクション (VLSA) アーキテクチャを提案する。 AEGISは既存のVLAモデルと直接統合し、元の命令追従性能を維持しながら、理論上の保証で安全性を向上させる。本アーキテクチャの有効性を評価するため,空間的複雑さと障害物介入の程度の違いを特徴とする,異なる操作シナリオを網羅した安全クリティカルベンチマーク SafeLIBERO を構築した。大規模実験により,本手法が最先端のベースラインよりも優れていることが示された。特に、AIGISは障害物回避率を59.16%向上させ、タスク実行の成功率を17.25%向上させた。再現性と今後の研究を容易にするため、コード、モデル、ベンチマークデータセットをhttps://vlsa-aegis.github.io/で公開しています。

関連論文リスト

BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。 BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文参考訳（メタデータ） (2026-02-23T18:19:46Z)
PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文参考訳（メタデータ） (2025-12-03T12:14:29Z)
AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文参考訳（メタデータ） (2025-11-15T10:30:46Z)
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning [30.037309138373754]
視覚言語アクションモデル(VLA)は、汎用的なロボットポリシーとしての可能性を示している。これらのモデルは、環境、ロボット自身、人間への危害のリスクを含む、現実世界の展開中に極端な安全上の課題を生じさせる。我々は、ISA(Integrated safety approach)を探求し、安全要件を体系的にモデル化し、多様な安全でない振る舞いを積極的に引き出すことによって、この問題に対処する。
論文参考訳（メタデータ） (2025-03-05T13:16:55Z)
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-01-30T17:59:45Z)
GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。 GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。 GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文参考訳（メタデータ） (2024-11-28T18:30:10Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。