論文の概要: HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task
- arxiv url: http://arxiv.org/abs/2603.14367v1
- Date: Sun, 15 Mar 2026 13:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.774371
- Title: HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task
- Title(参考訳): HomeGuard:家庭作業におけるコンテキストリスクの特定のためのVLMによる身体保護
- Authors: Xiaoya Lu, Yijin Zhou, Zeren Chen, Ruocheng Wang, Bingrui Sima, Enshen Zhou, Lu Sheng, Dongrui Liu, Jing Shao,
- Abstract要約: CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
CG-CoTは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間近傍への注意を順次固定する。
実験により、我々のモデルであるHomeGuardは安全性を大幅に向上し、ベースモデルと比較してリスクマッチ率を30%以上改善することが示された。
- 参考スコア(独自算出の注目度): 42.665798473119516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) empower embodied agents to execute complex instructions, yet they remain vulnerable to contextual safety risks where benign commands become hazardous due to subtle environmental states. Existing safeguards often prove inadequate. Rule-based methods lack scalability in object-dense scenes, whereas model-based approaches relying on prompt engineering suffer from unfocused perception, resulting in missed risks or hallucinations. To address this, we propose an architecture-agnostic safeguard featuring Context-Guided Chain-of-Thought (CG-CoT). This mechanism decomposes risk assessment into active perception that sequentially anchors attention to interaction targets and relevant spatial neighborhoods, followed by semantic judgment based on this visual evidence. We support this approach with a curated grounding dataset and a two-stage training strategy utilizing Reinforcement Fine-Tuning (RFT) with process rewards to enforce precise intermediate grounding. Experiments demonstrate that our model HomeGuard significantly enhances safety, improving risk match rates by over 30% compared to base models while reducing oversafety. Beyond hazard detection, the generated visual anchors serve as actionable spatial constraints for downstream planners, facilitating explicit collision avoidance and safety trajectory generation. Code and data are released under https://github.com/AI45Lab/HomeGuard
- Abstract(参考訳): VLM(Vision-Language Models)は、複雑な命令を実行するためのエンボディエージェントに権限を与えるが、微妙な環境状態のために良心的な命令が危険になるような状況の安全リスクに弱いままである。
既存のセーフガードは、しばしば不十分である。
ルールベースの手法は、オブジェクト指向のシーンではスケーラビリティに欠けるが、モデルベースのアプローチは、素早いエンジニアリングに頼り、意図しない知覚に悩まされ、結果としてリスクや幻覚が失われる。
そこで本研究では,CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
このメカニズムは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間的近傍への注意を順次固定し、続いてこの視覚的証拠に基づく意味的判断を行う。
提案手法は, 厳密な中間接地を行うために, RFT (Reinforcement Fine-Tuning) を用いた2段階の訓練戦略と, 厳密な中間接地を行う。
実験により,我々のモデルであるHomeGuardは安全性を大幅に向上し,リスクマッチ率をベースモデルに比べて30%以上向上し,過度な安全性を低下させることが示された。
ハザード検出以外にも、生成された視覚アンカーは下流のプランナーの行動可能な空間的制約として機能し、明示的な衝突回避と安全軌道生成を促進する。
コードとデータはhttps://github.com/AI45Lab/HomeGuardでリリースされる
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Sparse Threats, Focused Defense: Criticality-Aware Robust Reinforcement Learning for Safe Autonomous Driving [11.62520853262219]
本稿では、自律運転におけるスパースかつ安全クリティカルなリスクに対処するために、臨界対応ロバストRL(CARRL)を導入する。
CARRLは2つの相互作用成分からなる: リスク露光敵 (REA) とリスクターゲット型ロバストエージェント (RTRA) である。
提案手法は,最先端のベースライン法と比較して,全症例で少なくとも22.66%の衝突率を減少させることを示す。
論文 参考訳(メタデータ) (2026-01-05T05:20:16Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。
タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。
また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文 参考訳(メタデータ) (2024-12-30T13:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。