論文の概要: Learning specifications for reactive synthesis with safety constraints
- arxiv url: http://arxiv.org/abs/2601.05533v1
- Date: Fri, 09 Jan 2026 05:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.710717
- Title: Learning specifications for reactive synthesis with safety constraints
- Title(参考訳): 安全制約付き反応性合成のための学習仕様
- Authors: Kandai Watanabe, Nicholas Renninger, Sriram Sankaranarayanan, Morteza Lahijanian,
- Abstract要約: 我々は、潜在タスクを確率的形式言語としてモデル化し、適切な反応合成フレームワークを導入する。
既存のエビデンス駆動のステートアルゴリズムをマージし、学習プロセス全体を通して安全性要件を取り入れます。
本手法は,ロボットと環境の相互作用を動的変化を考慮した2人プレイヤゲームとしてモデル化する。
- 参考スコア(独自算出の注目度): 9.76292270520872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach to learning from demonstration that enables robots to autonomously execute complex tasks in dynamic environments. We model latent tasks as probabilistic formal languages and introduce a tailored reactive synthesis framework that balances robot costs with user task preferences. Our methodology focuses on safety-constrained learning and inferring formal task specifications as Probabilistic Deterministic Finite Automata (PDFA). We adapt existing evidence-driven state merging algorithms and incorporate safety requirements throughout the learning process to ensure that the learned PDFA always complies with safety constraints. Furthermore, we introduce a multi-objective reactive synthesis algorithm that generates deterministic strategies that are guaranteed to satisfy the PDFA task while optimizing the trade-offs between user preferences and robot costs, resulting in a Pareto front of optimal solutions. Our approach models the interaction as a two-player game between the robot and the environment, accounting for dynamic changes. We present a computationally-tractable value iteration algorithm to generate the Pareto front and the corresponding deterministic strategies. Comprehensive experimental results demonstrate the effectiveness of our algorithms across various robots and tasks, showing that the learned PDFA never includes unsafe behaviors and that synthesized strategies consistently achieve the task while meeting both the robot cost and user-preference requirements.
- Abstract(参考訳): 本稿では,ロボットが動的環境下で複雑なタスクを自律的に実行できるようにするデモから学ぶための新しいアプローチを提案する。
我々は、潜在タスクを確率的形式言語としてモデル化し、ロボットコストとユーザのタスク嗜好のバランスをとるための、適切なリアクティブ合成フレームワークを導入する。
本手法は,安全制約学習と形式的タスク仕様を確率論的決定論的有限オートマタ (PDFA) として推定することに焦点を当てる。
既存のエビデンス駆動のステートマージアルゴリズムに適応し、学習プロセス全体を通して安全要件を取り入れ、学習されたPDFAが常に安全制約に準拠するようにします。
さらに,ユーザの好みとロボットコストのトレードオフを最適化しつつ,PDFAタスクを満たすための決定論的戦略を生成する多目的リアクティブ合成アルゴリズムを導入する。
本手法は,ロボットと環境の相互作用を動的変化を考慮した2人プレイヤゲームとしてモデル化する。
本稿では,Paretoフロントとそれに対応する決定論的戦略を生成するために,計算的に抽出可能な値反復アルゴリズムを提案する。
総合的な実験結果から,学習したPDFAには安全でない動作が含まれておらず,ロボットのコストとユーザ設定の要件を満足しながら,一貫してタスクを達成できることが示唆された。
関連論文リスト
- Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T06:29:54Z) - Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Inductive Learning of Robot Task Knowledge from Raw Data and Online Expert Feedback [3.10979520014442]
ロボットの自律性の向上は、特に人間とロボットの相互作用シナリオにおいて、信頼と社会的受容の課題を引き起こす。
これはロボット認知能力の解釈可能な実装を必要としており、おそらくはタスク仕様の定義のための論理としての形式的手法に基づいている。
本稿では,タスク仕様を抽出するノイズの多い例から,帰納的論理プログラミングに基づくオフラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-13T17:25:46Z) - Online Pareto-Optimal Decision-Making for Complex Tasks using Active Inference [14.470714123175972]
本稿では,多目的強化学習のための新しいフレームワークを提案する。
安全なタスク実行を保証し、目的間のトレードオフを最適化し、ユーザの好みに準拠します。
操作と移動ロボットのケーススタディとベンチマークは、我々のフレームワークが他の方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-17T18:03:45Z) - Co-learning Planning and Control Policies Constrained by Differentiable
Logic Specifications [4.12484724941528]
本稿では,高次元ロボットナビゲーションタスクを解くための新しい強化学習手法を提案する。
既存の強化学習アルゴリズムと比較して、より少ないサンプルで高品質なポリシーを訓練する。
提案手法は,高次元制御と政策アライメントによる準最適政策の回避にも有効である。
論文 参考訳(メタデータ) (2023-03-02T15:24:24Z) - Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous
Demonstration [1.2891210250935146]
実証から学ぶ(LfD)アプローチは、エンドユーザに望ましい振る舞いのデモンストレーションを通じて、ロボットに新しいタスクを教えることを促す。
本稿では,異種間における共通知識を抽出する動的マルチストラテジー・リワード蒸留法(DMSRD)を提案する。
当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%、ログリターンは42%改善しています。
論文 参考訳(メタデータ) (2022-02-14T20:10:25Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。