論文の概要: PER-DPP Sampling Framework and Its Application in Path Planning
- arxiv url: http://arxiv.org/abs/2503.07411v1
- Date: Mon, 10 Mar 2025 14:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:00.210774
- Title: PER-DPP Sampling Framework and Its Application in Path Planning
- Title(参考訳): PER-DPPサンプリングフレームワークと経路計画への応用
- Authors: Junzhe Wang,
- Abstract要約: 意思決定中心の強化学習フレームワークは、高度な制御システム研究で注目されている。
本研究では,強化学習体験再生機構におけるサンプル問題に対する方法論的改善を提案する。
多様性評価にDPP(Determinant Point Process)を導入することにより、適応的な選択プロトコルを備えた二重基準サンプリングフレームワークを開発する。
- 参考スコア(独自算出の注目度): 5.158004370485019
- License:
- Abstract: Autonomous navigation in intelligent mobile systems represents a core research focus within artificial intelligence-driven robotics. Contemporary path planning approaches face constraints in dynamic environmental responsiveness and multi-objective task scalability, limiting their capacity to address growing intelligent operation requirements. Decision-centric reinforcement learning frameworks, capitalizing on their unique strengths in adaptive environmental interaction and self-optimization, have gained prominence in advanced control system research. This investigation introduces methodological improvements to address sample homogeneity challenges in reinforcement learning experience replay mechanisms. By incorporating determinant point processes (DPP) for diversity assessment, we develop a dual-criteria sampling framework with adaptive selection protocols. This approach resolves representation bias in conventional prioritized experience replay (PER) systems while preserving algorithmic interoperability, offering improved decision optimization for dynamic operational scenarios. Key contributions comprise: Develop a hybrid sampling paradigm (PER-DPP) combining priority sequencing with diversity maximization.Based on this,create an integrated optimization scheme (PER-DPP-Elastic DQN) merging diversity-aware sampling with adaptive step-size regulation. Comparative simulations in 2D navigation scenarios demonstrate that the elastic step-size component temporarily delays initial convergence speed but synergistically enhances final-stage optimization with PER-DPP integration. The synthesized method generates navigation paths with optimized length efficiency and directional stability.
- Abstract(参考訳): インテリジェントなモバイルシステムにおける自律ナビゲーションは、人工知能駆動型ロボティクスにおける中核研究の焦点である。
現代の経路計画手法は、動的環境応答性と多目的タスクのスケーラビリティの制約に直面し、その能力は増大するインテリジェントな運用要件に対処する。
適応的環境相互作用と自己最適化の独特な強みを活かした意思決定中心の強化学習フレームワークは、先進的な制御システム研究で注目されている。
本研究は,強化学習体験再生機構におけるサンプル均一性問題に対する方法論的改善を提案する。
多様性評価にDPP(Determinant Point Process)を導入することにより、適応的な選択プロトコルを備えた二重基準サンプリングフレームワークを開発する。
このアプローチは、アルゴリズムの相互運用性を維持しながら、従来の優先順位付けされたエクスペリエンスリプレイ(PER)システムにおける表現バイアスを解消し、動的運用シナリオに対する決定最適化の改善を提供する。
優先シークエンシングと多様性の最大化を組み合わせたハイブリッドサンプリングパラダイム(PER-DPP)を開発する。これに基づいて、適応的なステップサイズ規制と多様性を意識したサンプリングを統合する統合最適化スキーム(PER-DPP-Elastic DQN)を作成する。
2次元ナビゲーションシナリオの比較シミュレーションにより、弾性的なステップサイズコンポーネントは初期収束速度を一時的に遅らせるが、PER-DPP統合による最終段階最適化を相乗的に強化することを示した。
合成した手法は、長さ効率と方向安定性を最適化したナビゲーションパスを生成する。
関連論文リスト
- Integrating Chaotic Evolutionary and Local Search Techniques in Decision Space for Enhanced Evolutionary Multi-Objective Optimization [1.8130068086063336]
本稿では,SOMMOP(Single-Objective Multi-Modal Optimization)とMOO(Multi-Objective Optimization)の両方に焦点を当てる。
SOMMOPではニッチ技術とカオス進化を統合し,ガウス突然変異を併用したパーシスタンス・クラスタリングを行った。
MOOでは,これらの手法を不確実性に基づく選択,適応的チューニングを組み込んだ包括的フレームワークに拡張し,決定論的群集に半径(R)の概念を導入する。
論文 参考訳(メタデータ) (2024-11-12T15:18:48Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Solving Expensive Optimization Problems in Dynamic Environments with Meta-learning [32.41025515064283]
本稿では,高コストな動的最適化問題を解くための,シンプルなメタラーニングに基づく最適化フレームワークを提案する。
このフレームワークは柔軟性があり、任意の既製のサロゲートモデルをプラグイン形式で連続的に使用することができる。
いくつかの最先端アルゴリズムと比較して,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2023-10-19T07:42:51Z) - Evolutionary Solution Adaption for Multi-Objective Metal Cutting Process
Optimization [59.45414406974091]
我々は,従来の最適化タスクから解を転送するアルゴリズムの能力を研究することのできる,システムの柔軟性のためのフレームワークを提案する。
NSGA-IIの柔軟性を2つの変種で検討し,1)2つのタスクの解を同時に最適化し,より適応性が高いと期待されるソース間の解を得る,2)活性化あるいは非活性化の異なる可能性に対応する能動的非アクティブなジェノタイプについて検討した。
その結果,標準NSGA-IIによる適応は目標目標への最適化に必要な評価回数を大幅に削減し,提案した変種は適応コストをさらに向上することがわかった。
論文 参考訳(メタデータ) (2023-05-31T12:07:50Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Opportunistic Qualitative Planning in Stochastic Systems with Incomplete
Preferences over Reachability Objectives [24.11353445650682]
優先順位は、すべての制約が同時に満たされない場合に、どの目標/制約を満たすかを決定する上で重要な役割を果たします。
本稿では,SPIおよびSASI戦略を合成し,複数の逐次改善を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T19:53:08Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Proximal Policy Optimization-based Transmit Beamforming and Phase-shift
Design in an IRS-aided ISAC System for the THz Band [90.45915557253385]
テラヘルツ(THz)帯で動作するIRS支援統合センシング・通信(ISAC)システムを提案し,システム容量を最大化する。
透過ビームフォーミングと位相シフト設計はエルゴード制約を伴う普遍最適化問題に変換される。
論文 参考訳(メタデータ) (2022-03-21T09:15:18Z) - Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。
本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。
最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2021-10-15T11:46:14Z) - Hyperparameter Optimization via Sequential Uniform Designs [4.56877715768796]
本稿では,HPOをコンピュータ実験として再設計し,新しい逐次一様設計(SeqUD)戦略を提案する。
提案されたSeqUD戦略はHPOメソッドのベンチマークよりも優れており、既存のAutoMLツールに代わる有望で競争力のある選択肢となる可能性がある。
論文 参考訳(メタデータ) (2020-09-08T08:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。