論文の概要: Integrating Offline Pre-Training with Online Fine-Tuning: A Reinforcement Learning Approach for Robot Social Navigation
- arxiv url: http://arxiv.org/abs/2510.00466v1
- Date: Wed, 01 Oct 2025 03:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.356037
- Title: Integrating Offline Pre-Training with Online Fine-Tuning: A Reinforcement Learning Approach for Robot Social Navigation
- Title(参考訳): オンラインファインチューニングとオフライン事前学習の統合:ロボット社会ナビゲーションのための強化学習アプローチ
- Authors: Run Su, Hao Fu, Shuai Zhou, Yingao Fu,
- Abstract要約: 本稿では,Return-to-Go(RTG)を統合した,ロボットソーシャルナビゲーションのためのオフライン・オンラインファインチューニングアルゴリズムを提案する。
本アルゴリズムは,時間的歩行者動作パターンと空間的群集動態を協調的に符号化することにより,RTG値をリアルタイムに正確に推定するトランスフォーマー・ポラル融合モデルを特徴とする。
シミュレーションされた社会航法環境における実験により,本手法は最先端のベースラインに比べて高い成功率と低い衝突率を達成することが示された。
- 参考スコア(独自算出の注目度): 3.5801655940143413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) has emerged as a promising framework for addressing robot social navigation challenges. However, inherent uncertainties in pedestrian behavior and limited environmental interaction during training often lead to suboptimal exploration and distributional shifts between offline training and online deployment. To overcome these limitations, this paper proposes a novel offline-to-online fine-tuning RL algorithm for robot social navigation by integrating Return-to-Go (RTG) prediction into a causal Transformer architecture. Our algorithm features a spatiotem-poral fusion model designed to precisely estimate RTG values in real-time by jointly encoding temporal pedestrian motion patterns and spatial crowd dynamics. This RTG prediction framework mitigates distribution shift by aligning offline policy training with online environmental interactions. Furthermore, a hybrid offline-online experience sampling mechanism is built to stabilize policy updates during fine-tuning, ensuring balanced integration of pre-trained knowledge and real-time adaptation. Extensive experiments in simulated social navigation environments demonstrate that our method achieves a higher success rate and lower collision rate compared to state-of-the-art baselines. These results underscore the efficacy of our algorithm in enhancing navigation policy robustness and adaptability. This work paves the way for more reliable and adaptive robotic navigation systems in real-world applications.
- Abstract(参考訳): オフライン強化学習(RL)は、ロボット社会ナビゲーションの課題に対処するための有望なフレームワークとして登場した。
しかし、歩行者行動の不確実性や訓練中の環境相互作用の制限は、しばしばオフライントレーニングとオンラインデプロイメントの間に最適な探索と分布シフトをもたらす。
本稿では,リターン・ツー・ゴー(RTG)予測を因果トランスフォーマーアーキテクチャに組み込むことで,ロボット社会ナビゲーションのためのオフライン・オンライン微調整RLアルゴリズムを提案する。
本アルゴリズムは,時間的歩行者運動パターンと空間的群集動態を協調的に符号化することにより,RTGの値をリアルタイムに正確に推定することのできる空間空間融合モデルである。
このRTG予測フレームワークは、オフラインポリシートレーニングとオンライン環境相互作用を連携させることで、配電シフトを緩和する。
さらに、微調整中のポリシー更新を安定化し、事前学習した知識とリアルタイム適応のバランスの取れた統合を確保するために、ハイブリッドオフライン体験サンプリング機構を構築した。
シミュレーションされた社会航法環境における広範囲な実験により,本手法は最先端のベースラインに比べて高い成功率と低い衝突率を達成することが示された。
これらの結果は,ナビゲーションポリシーの堅牢性と適応性の向上におけるアルゴリズムの有効性を裏付けるものである。
この研究は、現実世界のアプリケーションにおいて、より信頼性が高く適応的なロボットナビゲーションシステムを実現するための道を開いた。
関連論文リスト
- UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning [26.554847852013737]
SoNICは適応型共形推論と制約付き強化学習を統合する最初のアルゴリズムである。
本手法は,従来の最先端RL法よりも11.67%高い96.93%の成功率を達成する。
実験により,疎密な群集と密集した群集の両方と相互作用して,堅牢で社会的に礼儀正しく意思決定できることを示した。
論文 参考訳(メタデータ) (2024-07-24T17:57:21Z) - Research on Autonomous Robots Navigation based on Reinforcement Learning [13.559881645869632]
我々は、経路計画と意思決定プロセスを最適化するために、Deep Q Network (DQN) と Proximal Policy Optimization (PPO) モデルを使用します。
様々な複雑なシナリオにおいて,これらのモデルの有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2024-07-02T00:44:06Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。