論文の概要: SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems
- arxiv url: http://arxiv.org/abs/2602.24235v1
- Date: Fri, 27 Feb 2026 18:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.552133
- Title: SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems
- Title(参考訳): SafeGen-LLM:ロボットシステムのタスク計画における安全一般化の促進
- Authors: Jialiang Fan, Weizhe Xu, Mengyu Liu, Oleg Sokolsky, Insup Lee, Fangxin Kong,
- Abstract要約: 我々はSafeGen-LLMという名前の安全汎用型大規模言語モデルを提案する。
SafeGen-LLMは、タスクプランの安全性の満足度を高めるだけでなく、様々な領域における新しい安全性特性を一般化する。
- 参考スコア(独自算出の注目度): 6.519619621963528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-critical task planning in robotic systems remains challenging: classical planners suffer from poor scalability, Reinforcement Learning (RL)-based methods generalize poorly, and base Large Language Models (LLMs) cannot guarantee safety. To address this gap, we propose safety-generalizable large language models, named SafeGen-LLM. SafeGen-LLM can not only enhance the safety satisfaction of task plans but also generalize well to novel safety properties in various domains. We first construct a multi-domain Planning Domain Definition Language 3 (PDDL3) benchmark with explicit safety constraints. Then, we introduce a two-stage post-training framework: Supervised Fine-Tuning (SFT) on a constraint-compliant planning dataset to learn planning syntax and semantics, and Group Relative Policy Optimization (GRPO) guided by fine-grained reward machines derived from formal verification to enforce safety alignment and by curriculum learning to better handle complex tasks. Extensive experiments show that SafeGen-LLM achieves strong safety generalization and outperforms frontier proprietary baselines across multi-domain planning tasks and multiple input formats (e.g., PDDLs and natural language).
- Abstract(参考訳): 古典的なプランナーはスケーラビリティの低下に悩まされ、強化学習(RL)ベースの手法は一般化が悪く、基礎となるLarge Language Models(LLM)は安全性を保証できない。
このギャップに対処するため,SafeGen-LLM という名前の安全汎用型大規模言語モデルを提案する。
SafeGen-LLMは、タスクプランの安全性の満足度を高めるだけでなく、様々な領域における新しい安全性特性を一般化する。
まず、明示的な安全性制約を伴うマルチドメイン計画ドメイン定義言語3(PDDL3)ベンチマークを構築した。
次に,2段階のポストトレーニングフレームワークを紹介した。 計画構文とセマンティクスを学習するための制約準拠の計画データセット上でのSFT(Supervised Fine-Tuning, Supervised Fine-Tuning, Supervised Fine-Tuning)と,安全アライメントを強制する形式的検証から派生した細粒度報酬マシンによるグループ相対政策最適化(GRPO)と,複雑なタスクをよりよく処理するためのカリキュラム学習によって導かれるグループ相対政策最適化(GRPO)である。
大規模な実験により、SafeGen-LLMは強力な安全性の一般化を実現し、複数のドメイン計画タスクや複数の入力フォーマット(PDDL、自然言語など)でフロンティア独自のベースラインを上回ります。
関連論文リスト
- PoSafeNet: Safe Learning with Poset-Structured Neural Nets [49.854863600271614]
既存のアプローチは、しばしば複数の安全制約を均一に、または固定された優先命令によって強制し、実現不可能と不安定な振る舞いを引き起こす。
我々は、この設定を擬似構造的安全性として定式化し、安全制約を部分的に順序づけられた集合としてモデル化し、安全構成を政策クラスの構造的特性として扱う。
この定式化に基づいて、逐次クローズドフォームプロジェクションを介して安全性を強制する、識別可能な神経安全層であるPoSafeNetを提案する。
論文 参考訳(メタデータ) (2026-01-29T22:03:32Z) - SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization [79.14563283347773]
マルチモーダルな大言語モデル (MLLM) は印象的な推論と命令追従能力を示した。
クロスモーダル結合は、個々の入力が良性である場合でも、安全でないセマンティクスを生成する。
自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T05:09:49Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - Safety Aware Task Planning via Large Language Models in Robotics [22.72668275829238]
本稿では,ロボット作業計画に安全意識を組み込むためのマルチLLMフレームワークであるSAFER(Safety-Aware Framework for Execution in Robotics)を紹介する。
本フレームワークは, 複数段階の安全フィードバックを統合し, リアルタイムリスク評価, プロアクティブエラー訂正, 透過的安全性評価を実現している。
論文 参考訳(メタデータ) (2025-03-19T21:41:10Z) - Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception [4.424170214926035]
本稿では,大規模言語モデルと構造化安全モデリングを組み合わせたリスク対応タスク計画フレームワークを提案する。
提案手法は,空間的および文脈的危険因子を抽出し,動的セマンティック安全グラフを構築する。
既定の安全性制約に依存する既存の手法とは異なり、我々のフレームワークはコンテキスト認識型リスク認識モジュールを導入している。
論文 参考訳(メタデータ) (2025-03-10T02:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。