Fugu-MT 論文翻訳(概要): Revisiting Bounded-Suboptimal Safe Interval Path Planning

論文の概要: Revisiting Bounded-Suboptimal Safe Interval Path Planning

arxiv url: http://arxiv.org/abs/2006.01195v1
Date: Mon, 1 Jun 2020 18:42:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 07:16:48.577538
Title: Revisiting Bounded-Suboptimal Safe Interval Path Planning
Title（参考訳）: 境界下最適区間計画の再検討
Authors: Konstantin Yakovlev, Anton Andreychuk, Roni Stern
Abstract要約: 安全インターバル経路計画(SIPP)は動的障害物の存在下で経路を見つけるための強力なアルゴリズムである。ロボットの経路計画などのSIPPの多くの実践的応用において、より短い計画時間で最適性をトレードオフしたい。
参考スコア（独自算出の注目度）: 16.24691505268453
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safe-interval path planning (SIPP) is a powerful algorithm for finding a path in the presence of dynamic obstacles. SIPP returns provably optimal solutions. However, in many practical applications of SIPP such as path planning for robots, one would like to trade-off optimality for shorter planning time. In this paper we explore different ways to build a bounded-suboptimal SIPP and discuss their pros and cons. We compare the different bounded-suboptimal versions of SIPP experimentally. While there is no universal winner, the results provide insights into when each method should be used.
Abstract（参考訳）: 安全インターバル経路計画(SIPP)は動的障害物の存在下で経路を見つけるための強力なアルゴリズムである。 sippは最適な解を返す。しかし、ロボットの経路計画などのSIPPの実践的応用の多くは、計画時間短縮のために最適性をトレードオフしたい。本稿では,有界な準最適SIPPを構築するための様々な方法を検討し,その長所と短所について議論する。 sippの異なる有界-準最適バージョンを実験的に比較する。普遍的な勝者はいないが、結果は各メソッドがいつ使われるべきかについての洞察を提供する。

関連論文リスト

SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文参考訳（メタデータ） (2024-11-27T10:45:49Z)
Research on reinforcement learning based warehouse robot navigation algorithm in complex warehouse layout [13.945240113332352]
本稿では, PPO と Dijkstra のアルゴリズム, Proximal Policy-Dijkstra (PP-D) の新たな手法を提案する。 PP-D法はPPOによる効率的な戦略学習とリアルタイム意思決定を実現し,Dijkstraアルゴリズムを用いてグローバル最適経路を計画する。
論文参考訳（メタデータ） (2024-11-09T09:44:03Z)
Artificial Intelligence Based Navigation in Quasi Structured Environment [0.0]
本稿では,Floyd- Warshall,Bellman-Ford,Johnson,Ant Colony Optimization (ACO),Particle Swarm Optimization (PSO),Grey Wolf (GWO)アルゴリズムの動作,応用,複雑性要因,メリットとデメリットについて検討する。提案アルゴリズムは、準構造化点と呼ばれる境界内のランダムに構造化された点に適用した場合、より少ない時間でより良い結果を示す。
論文参考訳（メタデータ） (2024-07-08T06:42:02Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Path Planning in a dynamic environment using Spherical Particle Swarm Optimization [0.0]
本研究では, 球面ベクトルを用いた粒子群最適化技術を用いたUAV用動的パスプランナ(DPP)を提案する。経路は、チェックポイントを再計画する一組の経路として構築されている。経路長、安全、姿勢、経路平滑性はすべて、最適な経路がどうあるべきかを決定する上で考慮される。実際のデジタル標高モデルを用いて4つのテストシナリオが実施される。それぞれのテストは、SPSO-DPPが安全で効率的な経路セグメントを生成することができるかを示すために、パスの長さと安全性に異なる優先順位を与える。
論文参考訳（メタデータ） (2024-03-19T13:56:34Z)
Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。 PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文参考訳（メタデータ） (2024-02-16T19:35:58Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。次に,政策最適化におけるコミット率の概念を紹介する。第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文参考訳（メタデータ） (2021-10-29T06:35:44Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文参考訳（メタデータ） (2021-06-19T18:06:11Z)
Sparsification for Fast Optimal Multi-Robot Path Planning in Lazy Compilation Schemes [7.766921168069532]
複数のロボット(MRPP)の経路計画は、ロボットが最初の位置から指定された目標位置までナビゲートできる非衝突経路を見つけるタスクを表します。本稿では,既存の SAT ベースの MRPP アルゴリズムを,対象の Boolean 符号化を導出する各ロボットの候補経路の集合を分割することで拡張する。
論文参考訳（メタデータ） (2021-03-08T00:57:42Z)
Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文参考訳（メタデータ） (2020-02-13T05:42:27Z)
Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。 OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文参考訳（メタデータ） (2019-12-12T08:40:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。