論文の概要: Learning Safe Numeric Planning Action Models
- arxiv url: http://arxiv.org/abs/2312.10705v2
- Date: Tue, 15 Jul 2025 12:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.6446
- Title: Learning Safe Numeric Planning Action Models
- Title(参考訳): 安全な計画行動モデルを学ぶ
- Authors: Argaman Mordoch, Shahaf S. Shperberg, Roni Stern, Berndan Juba,
- Abstract要約: 安全な数値条件と効果を学習できる行動モデル学習アルゴリズムであるN-SAMを提案する。
この安全性を確保するために、N-SAMは学習モデルに含める前に、各アクションのかなりの数の例を観察しなければならない。
我々は,N-SAMアルゴリズムの拡張であるN-SAM*を提案する。
- 参考スコア(独自算出の注目度): 12.281688043929996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A significant challenge in applying planning technology to real-world problems lies in obtaining a planning model that accurately represents the problem's dynamics. Obtaining a planning model is even more challenging in mission-critical domains, where a trial-and-error approach to learning how to act is not an option. In such domains, the action model used to generate plans must be safe, in the sense that plans generated with it must be applicable and achieve their goals. % Learning safe action models for planning has been mostly explored for domains in which states are sufficiently described with Boolean variables. % In this work, we go beyond this limitation and propose the Numeric Safe Action Models Learning (N-SAM) algorithm. In this work, we present N-SAM, an action model learning algorithm capable of learning safe numeric preconditions and effects. We prove that N-SAM runs in linear time in the number of observations and, under certain conditions, is guaranteed to return safe action models. However, to preserve this safety guarantee, N-SAM must observe a substantial number of examples for each action before including it in the learned model. We address this limitation of N-SAM and propose N-SAM*, an extension to the N-SAM algorithm that always returns an action model where every observed action is applicable at least in some states, even if it was observed only once. N-SAM* does so without compromising the safety of the returned action model. We prove that N-SAM* is optimal in terms of sample complexity compared to any other algorithm that guarantees safety. N-SAM and N-SAM* are evaluated over an extensive benchmark of numeric planning domains, and their performance is compared to a state-of-the-art numeric action model learning algorithm. We also provide a discussion on the impact of numerical accuracy on the learning process.
- Abstract(参考訳): 現実の問題に計画技術を適用する上で重要な課題は、問題のダイナミクスを正確に表現する計画モデルを得ることである。
ミッションクリティカルなドメインでは、行動の方法を学ぶための試行錯誤アプローチは選択肢ではありません。
このようなドメインでは、計画の生成に使用されるアクションモデルは、それで生成されたプランが適用可能で、その目標を達成するという意味で安全でなければならない。
% 計画のための安全なアクションモデルを学ぶことは、状態がブール変数で十分に記述されたドメインに対して主に検討されている。
本研究では,この制限を超えて,Numeric Safe Action Models Learning (N-SAM)アルゴリズムを提案する。
本研究では,安全な数値条件と効果を学習できる行動モデル学習アルゴリズムN-SAMを提案する。
我々は,N-SAMが観測回数で線形時間で動作し,ある条件下では安全な動作モデルを返すことが保証されることを示す。
しかし、この安全性を確保するためには、N-SAMは学習モデルに含める前に、各アクションのかなりの数の例を観察しなければならない。
我々は、N-SAMのこの制限に対処し、N-SAMアルゴリズムの拡張であるN-SAM*を提案する。
N-SAM*は返却されたアクションモデルの安全性を損なうことなくそうする。
安全性を保証する他のアルゴリズムと比較して, N-SAM* は標本の複雑さの観点から最適であることを示す。
N-SAMとN-SAM*は、数値計画領域の広範なベンチマークで評価され、その性能は最先端の数値行動モデル学習アルゴリズムと比較される。
また,数値的精度が学習過程に与える影響についても論じる。
関連論文リスト
- Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks [12.281688043929996]
自動計画アルゴリズムは、各アクションの前提条件と効果を指定するドメインのモデルを必要とする。
数値的なドメインモデルと計画の学習が、数値的な計画環境にとって効果的なアプローチであるかどうかは不明だ。
本研究では、数値的なドメインモデルを学習し、それを代替のモデルフリーソリューションと比較する利点について検討する。
論文 参考訳(メタデータ) (2025-02-18T16:26:21Z) - Avoiding spurious sharpness minimization broadens applicability of SAM [13.21265875272573]
シャープネス・アウェア・最小化(SAM)のような曲率正規化技術は、視覚タスクの一般化を改善する上で非常に有望である。
SAMは自然言語処理(NLP)のようなドメインではパフォーマンスが悪く、計算予算の2倍であっても、パフォーマンスが劣化することがよくあります。
そこで我々は,関数の統計量を変更することでのみ曲率を正規化する関数SAMというアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-04T15:25:47Z) - Preconditioned Sharpness-Aware Minimization: Unifying Analysis and a Novel Learning Algorithm [39.656014609027494]
シャープネスを意識した最小化(SAM)は、ディープニューラルネットワークベースの学習の一般化性を改善する強力なツールとして登場した。
この寄与はプリコンディショニング(pre)を利用してSAM変種を統一し、統一収束解析だけでなく、貴重な洞察を提供する。
informationSAMと呼ばれる新しいアルゴリズムを導入し、ノイズ推定による勾配の調整によりSAMのいわゆる逆モデル劣化問題に対処する。
論文 参考訳(メタデータ) (2025-01-11T18:05:33Z) - Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
Segment Anything Model (SAM) は、その顕著な一般化能力により、異常セグメンテーションタスクにおいて大きな進歩を遂げている。
SAMを直接適用する既存のメソッドは、しばしばドメインシフトの問題を見落としている。
本稿では, SAMの異常セグメンテーションに対する知覚能力を高めることを目的とした, 自己パーセプティノンチューニング(SPT)手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - SAM-SP: Self-Prompting Makes SAM Great Again [11.109389094334894]
Segment Anything Model (SAM)は、ゼロショットセグメンテーションタスクにおいて印象的な機能を示した。
SAMは、医療画像などの特定の領域に適用した場合、顕著な劣化性能に遭遇する。
本稿では,バニラSAMモデルの拡張に適したSAM-SPという,自己プロンプトに基づくファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T13:03:05Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Safe Learning of PDDL Domains with Conditional Effects -- Extended Version [27.05167679870857]
実験されたほとんどの領域において、条件付きSAMはテストセット問題のほとんどを完璧に解くのに利用できることを示す。
この結果から,Conditional-SAMで学習したアクションモデルを用いて,テストセット問題を完全に解決できることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T14:49:49Z) - SU-SAM: A Simple Unified Framework for Adapting Segment Anything Model in Underperformed Scenes [34.796859088106636]
SAM(Segment Any Model)は、一般的な視覚シナリオにおいて優れた一般化性を示したが、専門的なデータを理解する能力に欠けていた。
近年の手法では,パラメータ効率の手法とタスク固有の設計を組み合わせることで,特定のタスク上でSAMを微調整する手法が提案されている。
本稿では,パラメータ効率のよいSAMモデルを簡便かつ効率的に微調整できる,シンプルで統一的なフレームワーク SU-SAM を提案する。
論文 参考訳(メタデータ) (2024-01-31T12:53:11Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - SAM operates far from home: eigenvalue regularization as a dynamical
phenomenon [15.332235979022036]
シャープネス認識最小化(SAM)アルゴリズムは、ロス・ヘッセンの大きな固有値を制御することが示されている。
SAMは学習軌跡全体を通して固有値の強い正規化を提供することを示す。
本理論は,学習速度とSAM半径パラメータの関数として最大固有値を予測する。
論文 参考訳(メタデータ) (2023-02-17T04:51:20Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。