論文の概要: RepV: Safety-Separable Latent Spaces for Scalable Neurosymbolic Plan Verification
- arxiv url: http://arxiv.org/abs/2510.26935v1
- Date: Thu, 30 Oct 2025 18:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.894132
- Title: RepV: Safety-Separable Latent Spaces for Scalable Neurosymbolic Plan Verification
- Title(参考訳): RepV: スケーラブルなニューロシンボリックプラン検証のための安全分離型潜伏空間
- Authors: Yunhao Yang, Neel P. Bhatt, Pranay Samineni, Rohan Siva, Zhanyang Wang, Ufuk Topcu,
- Abstract要約: 本稿では,安全かつ安全でない計画が線形に分離可能な潜在空間を学習することで,両視点を統一するニューロシンボリック検証器RepVを紹介する。
RepVは軽量なプロジェクタを訓練し、各プランと言語モデル生成の理論的根拠を低次元空間に組み込む。
RepVは、潜伏空間における位置に基づいて正しい検証の可能性を確率論的に保証する。
- 参考スコア(独自算出の注目度): 17.66826792670962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems migrate to safety-critical domains, verifying that their actions comply with well-defined rules remains a challenge. Formal methods provide provable guarantees but demand hand-crafted temporal-logic specifications, offering limited expressiveness and accessibility. Deep learning approaches enable evaluation of plans against natural-language constraints, yet their opaque decision process invites misclassifications with potentially severe consequences. We introduce RepV, a neurosymbolic verifier that unifies both views by learning a latent space where safe and unsafe plans are linearly separable. Starting from a modest seed set of plans labeled by an off-the-shelf model checker, RepV trains a lightweight projector that embeds each plan, together with a language model-generated rationale, into a low-dimensional space; a frozen linear boundary then verifies compliance for unseen natural-language rules in a single forward pass. Beyond binary classification, RepV provides a probabilistic guarantee on the likelihood of correct verification based on its position in the latent space. This guarantee enables a guarantee-driven refinement of the planner, improving rule compliance without human annotations. Empirical evaluations show that RepV improves compliance prediction accuracy by up to 15% compared to baseline methods while adding fewer than 0.2M parameters. Furthermore, our refinement framework outperforms ordinary fine-tuning baselines across various planning domains. These results show that safety-separable latent spaces offer a scalable, plug-and-play primitive for reliable neurosymbolic plan verification. Code and data are available at: https://repv-project.github.io/.
- Abstract(参考訳): AIシステムが安全クリティカルなドメインに移行するにつれて、そのアクションが明確に定義されたルールに準拠していることを検証することは、依然として課題である。
形式的手法は証明可能な保証を提供するが、手作りの時間論理仕様を必要としており、表現力とアクセシビリティが制限されている。
ディープラーニングアプローチは、自然言語制約に対する計画の評価を可能にするが、その不透明な決定プロセスは、潜在的に深刻な結果を伴う誤分類を招待する。
本稿では,安全かつ安全でない計画が線形に分離可能な潜在空間を学習することで,両視点を統一するニューロシンボリック検証器RepVを紹介する。
市販のモデルチェッカーによってラベル付けされた計画の控えめなシードセットから始まり、RepVは軽量プロジェクターを訓練し、各プランを言語モデル生成論理と共に低次元空間に組み込む。
バイナリ分類以外にも、RepVは潜在空間におけるその位置に基づいて正しい検証の可能性を確率論的に保証する。
この保証により、プランナの保証駆動の洗練が可能になり、ヒューマンアノテーションなしでルールコンプライアンスが改善される。
経験的評価では、RepVは基準法に比べてコンプライアンス予測精度を最大15%向上し、0.2M未満のパラメータを追加している。
さらに, 改良フレームワークは, 様々な計画領域において, 通常の微調整ベースラインよりも優れていた。
これらの結果は、安全分離可能な潜在空間が、信頼性の高いニューロシンボリックプラン検証のための拡張性のあるプラグアンドプレイプリミティブを提供することを示している。
コードとデータは、https://repv-project.github.io/.com/で入手できる。
関連論文リスト
- Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Foundation Models for Logistics: Toward Certifiable, Conversational Planning Interfaces [59.80143393787701]
大規模言語モデル(LLM)は不確実性に対処し、導入障壁を低くしながら再計画の加速を約束する。
本稿では,自然言語対話のアクセシビリティと目標解釈の検証可能な保証とを組み合わせたニューロシンボリック・フレームワークを提案する。
わずか100個の不確実性フィルタで微調整された軽量モデルは、GPT-4.1のゼロショット性能を上回り、推論遅延を50%近く削減する。
論文 参考訳(メタデータ) (2025-07-15T14:24:01Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。
LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。
本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文 参考訳(メタデータ) (2024-02-09T16:40:59Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Planning with Learned Dynamics: Probabilistic Guarantees on Safety and
Reachability via Lipschitz Constants [7.216586291939535]
未知のダイナミクスを持つシステムのフィードバック動作計画法を提案する。
安全、到達可能性、目標安定性の保証を提供します。
提案手法は,6次元立方体と7DOFクカアームの学習モデルを用いて計画する。
論文 参考訳(メタデータ) (2020-10-18T14:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。