論文の概要: Integrating Offline Pre-Training with Online Fine-Tuning: A Reinforcement Learning Approach for Robot Social Navigation
- arxiv url: http://arxiv.org/abs/2510.00466v1
- Date: Wed, 01 Oct 2025 03:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.356037
- Title: Integrating Offline Pre-Training with Online Fine-Tuning: A Reinforcement Learning Approach for Robot Social Navigation
- Title(参考訳): オンラインファインチューニングとオフライン事前学習の統合:ロボット社会ナビゲーションのための強化学習アプローチ
- Authors: Run Su, Hao Fu, Shuai Zhou, Yingao Fu,
- Abstract要約: 本稿では,Return-to-Go(RTG)を統合した,ロボットソーシャルナビゲーションのためのオフライン・オンラインファインチューニングアルゴリズムを提案する。
本アルゴリズムは,時間的歩行者動作パターンと空間的群集動態を協調的に符号化することにより,RTG値をリアルタイムに正確に推定するトランスフォーマー・ポラル融合モデルを特徴とする。
シミュレーションされた社会航法環境における実験により,本手法は最先端のベースラインに比べて高い成功率と低い衝突率を達成することが示された。
- 参考スコア(独自算出の注目度): 3.5801655940143413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) has emerged as a promising framework for addressing robot social navigation challenges. However, inherent uncertainties in pedestrian behavior and limited environmental interaction during training often lead to suboptimal exploration and distributional shifts between offline training and online deployment. To overcome these limitations, this paper proposes a novel offline-to-online fine-tuning RL algorithm for robot social navigation by integrating Return-to-Go (RTG) prediction into a causal Transformer architecture. Our algorithm features a spatiotem-poral fusion model designed to precisely estimate RTG values in real-time by jointly encoding temporal pedestrian motion patterns and spatial crowd dynamics. This RTG prediction framework mitigates distribution shift by aligning offline policy training with online environmental interactions. Furthermore, a hybrid offline-online experience sampling mechanism is built to stabilize policy updates during fine-tuning, ensuring balanced integration of pre-trained knowledge and real-time adaptation. Extensive experiments in simulated social navigation environments demonstrate that our method achieves a higher success rate and lower collision rate compared to state-of-the-art baselines. These results underscore the efficacy of our algorithm in enhancing navigation policy robustness and adaptability. This work paves the way for more reliable and adaptive robotic navigation systems in real-world applications.
- Abstract(参考訳): オフライン強化学習(RL)は、ロボット社会ナビゲーションの課題に対処するための有望なフレームワークとして登場した。
しかし、歩行者行動の不確実性や訓練中の環境相互作用の制限は、しばしばオフライントレーニングとオンラインデプロイメントの間に最適な探索と分布シフトをもたらす。
本稿では,リターン・ツー・ゴー(RTG)予測を因果トランスフォーマーアーキテクチャに組み込むことで,ロボット社会ナビゲーションのためのオフライン・オンライン微調整RLアルゴリズムを提案する。
本アルゴリズムは,時間的歩行者運動パターンと空間的群集動態を協調的に符号化することにより,RTGの値をリアルタイムに正確に推定することのできる空間空間融合モデルである。
このRTG予測フレームワークは、オフラインポリシートレーニングとオンライン環境相互作用を連携させることで、配電シフトを緩和する。
さらに、微調整中のポリシー更新を安定化し、事前学習した知識とリアルタイム適応のバランスの取れた統合を確保するために、ハイブリッドオフライン体験サンプリング機構を構築した。
シミュレーションされた社会航法環境における広範囲な実験により,本手法は最先端のベースラインに比べて高い成功率と低い衝突率を達成することが示された。
これらの結果は,ナビゲーションポリシーの堅牢性と適応性の向上におけるアルゴリズムの有効性を裏付けるものである。
この研究は、現実世界のアプリケーションにおいて、より信頼性が高く適応的なロボットナビゲーションシステムを実現するための道を開いた。
関連論文リスト
- GIANT - Global Path Integration and Attentive Graph Networks for Multi-Agent Trajectory Planning [4.019914376054815]
本稿では,グローバルパス計画とローカルナビゲーション戦略を統合したマルチロボット衝突回避手法を提案する。
本研究では,事前に計画されたグローバルパスを活用するローカルナビゲーションモデルを導入し,ロボットが最適な経路に順応し,環境変化に動的に適応できるようにする。
提案手法は, NH-ORCA, DRL-NAV, GA3C-CADRLなどの既設ベースラインに対して, 多様なシミュレーションシナリオに対して評価を行った。
論文 参考訳(メタデータ) (2026-03-04T22:45:53Z) - Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation [0.0]
深部強化学習(HMP-DRL)によるハイブリッド運動計画
状態空間と報酬関数の両方に符号化されたチェックポイントのシーケンスを通じて、局所DRLポリシーに統合されたパスを生成するグラフベースのグローバルプランナを提案する。
社会的コンプライアンスを確保するため、地域プランナーは、周辺エージェントのセマンティックタイプに基づいて、安全マージンと罰則を動的に調整するエンティティ対応報酬構造を採用する。
論文 参考訳(メタデータ) (2025-12-31T05:58:57Z) - Intrinsic-Motivation Multi-Robot Social Formation Navigation with Coordinated Exploration [7.50564221243905]
協調探索型マルチロボットRLアルゴリズムを提案する。
その中核となるコンポーネントは、政策保守主義を一括して緩和するために設計された自己学習固有の報酬メカニズムである。
ソーシャルフォーメーションナビゲーションベンチマークの実証的な結果は,提案アルゴリズムの優れた性能を示すものである。
論文 参考訳(メタデータ) (2025-12-15T13:03:08Z) - Socially aware navigation for mobile robots: a survey on deep reinforcement learning approaches [1.2891210250935148]
社会に意識されたナビゲーションはロボット工学において急速に発展する研究領域であり、ロボットは暗黙の人間の社会規範に固執しながら、人間の環境内を移動することができる。
深層強化学習(Dep Reinforcement Learning, DRL)は、ロボットがそれらの目的を効果的に達成しつつ、これらの社会的慣行を組み込むことのできるナビゲーションポリシーの開発を加速した。
このサーベイは、DRLに基づく社会に意識したナビゲーションのアプローチの概要を提供し、プロキシ、人間の快適性、自然性、軌道、意図予測といった重要な側面を強調している。
論文 参考訳(メタデータ) (2025-11-18T05:33:28Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning [26.554847852013737]
SoNICは適応型共形推論と制約付き強化学習を統合する最初のアルゴリズムである。
本手法は,従来の最先端RL法よりも11.67%高い96.93%の成功率を達成する。
実験により,疎密な群集と密集した群集の両方と相互作用して,堅牢で社会的に礼儀正しく意思決定できることを示した。
論文 参考訳(メタデータ) (2024-07-24T17:57:21Z) - Research on Autonomous Robots Navigation based on Reinforcement Learning [13.559881645869632]
我々は、経路計画と意思決定プロセスを最適化するために、Deep Q Network (DQN) と Proximal Policy Optimization (PPO) モデルを使用します。
様々な複雑なシナリオにおいて,これらのモデルの有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2024-07-02T00:44:06Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。