論文の概要: DOA: A Degeneracy Optimization Agent with Adaptive Pose Compensation Capability based on Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.19742v1
- Date: Sat, 26 Jul 2025 02:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.08831
- Title: DOA: A Degeneracy Optimization Agent with Adaptive Pose Compensation Capability based on Deep Reinforcement Learning
- Title(参考訳): DOA:Deep Reinforcement Learningに基づく適応型Pose補償機能付き縮退最適化エージェント
- Authors: Yanbin Li, Canran Xiao, Hongyang He, Shenghai Yuan, Zong Ke, Jiajie Yu, Zixiong Qin, Zhiguo Zhang, Wenzheng Chi, Wei Zhang,
- Abstract要約: 長い直線廊下は、2D-SLAMで深刻な縮退を引き起こす可能性がある。
本稿では,適応型退化最適化エージェントの訓練にプロキシ・ポリシー・オプティマイズを用いる。
- 参考スコア(独自算出の注目度): 8.895924836025666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Particle filter-based 2D-SLAM is widely used in indoor localization tasks due to its efficiency. However, indoor environments such as long straight corridors can cause severe degeneracy problems in SLAM. In this paper, we use Proximal Policy Optimization (PPO) to train an adaptive degeneracy optimization agent (DOA) to address degeneracy problem. We propose a systematic methodology to address three critical challenges in traditional supervised learning frameworks: (1) data acquisition bottlenecks in degenerate dataset, (2) inherent quality deterioration of training samples, and (3) ambiguity in annotation protocol design. We design a specialized reward function to guide the agent in developing perception capabilities for degenerate environments. Using the output degeneracy factor as a reference weight, the agent can dynamically adjust the contribution of different sensors to pose optimization. Specifically, the observation distribution is shifted towards the motion model distribution, with the step size determined by a linear interpolation formula related to the degeneracy factor. In addition, we employ a transfer learning module to endow the agent with generalization capabilities across different environments and address the inefficiency of training in degenerate environments. Finally, we conduct ablation studies to demonstrate the rationality of our model design and the role of transfer learning. We also compare the proposed DOA with SOTA methods to prove its superior degeneracy detection and optimization capabilities across various environments.
- Abstract(参考訳): 粒子フィルタを用いた2D-SLAMは, 効率性から室内でのローカライズ作業に広く利用されている。
しかし、長い直線廊下のような屋内環境はSLAMの深刻な退化を招きかねない。
本稿では、PPOを用いて、適応縮退最適化エージェント(DOA)を訓練し、縮退問題に対処する。
本稿では,従来の教師あり学習フレームワークにおける3つの重要な課題に対処する体系的手法を提案する。(1)縮退データセットにおけるデータ取得ボトルネック,(2)トレーニングサンプル固有の品質劣化,(3)アノテーションプロトコル設計における曖昧さ。
退化環境に対する知覚能力開発において,エージェントを誘導する特別報酬関数を設計する。
出力縮退係数を基準重みとして、異なるセンサの寄与を動的に調整して最適化を行うことができる。
具体的には、この縮退係数に関連する線形補間式によって決定されるステップサイズで、観測分布を運動モデル分布に向ける。
さらに,異種環境におけるエージェントの一般化能力と,退化環境におけるトレーニングの非効率性に対応するために,転送学習モジュールを用いる。
最後に,モデル設計の合理性と伝達学習の役割を実証するためにアブレーション研究を行う。
また,提案するDOAとSOTA法を比較し,様々な環境において優れた縮退検出と最適化能力を示す。
関連論文リスト
- Exploring End-to-end Differentiable Neural Charged Particle Tracking -- A Loss Landscape Perspective [0.0]
粒子追跡のためのE2E差分型決定型学習手法を提案する。
離散的な代入操作の微分可能なバリエーションは、効率的なネットワーク最適化を可能にすることを示す。
E2Eの微分性は、勾配情報の一般利用に加えて、予測不安定性を緩和するロバスト粒子追跡のための重要なツールである、と我々は主張する。
論文 参考訳(メタデータ) (2024-07-18T11:42:58Z) - Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond [44.154393889313724]
線形注意を持つ変圧器は、降下ステップを通して線形勾配推定器を実装することにより、文脈内学習(ICL)を行うことができる。
我々は、アーキテクチャ、低ランクパラメータ化、および相関設計への貢献を通じて、ICLの最適化と一般化の展望をより強く評価する。
論文 参考訳(メタデータ) (2024-07-13T21:13:55Z) - Gradient Guidance for Diffusion Models: An Optimization Perspective [45.6080199096424]
本稿では,ユーザ特定目的の最適化に向けて,事前学習した拡散モデルを適用するための勾配ガイダンスの形式について検討する。
我々は,その最適化理論とアルゴリズム設計を体系的に研究するために,誘導拡散の数学的枠組みを確立する。
論文 参考訳(メタデータ) (2024-04-23T04:51:02Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Empirical Study on Optimizer Selection for Out-of-Distribution
Generalization [16.386766049451317]
現代のディープラーニングシステムは、テストデータ分布がトレーニングデータ分布とわずかに異なる場合、うまく一般化しない。
本研究では,分布シフトの異なるクラスに対して,一般的な一階述語一般化の性能について検討する。
論文 参考訳(メタデータ) (2022-11-15T23:56:30Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。