論文の概要: OffRIPP: Offline RL-based Informative Path Planning
- arxiv url: http://arxiv.org/abs/2409.16830v1
- Date: Wed, 25 Sep 2024 11:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-27 04:05:48.651200
- Title: OffRIPP: Offline RL-based Informative Path Planning
- Title(参考訳): OffRIPP:オフラインRLベースインフォーマティブパスプランニング
- Authors: Srikar Babu Gadipudi, Srujan Deolasee, Siva Kailas, Wenhao Luo, Katia Sycara, Woojun Kim,
- Abstract要約: IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
- 参考スコア(独自算出の注目度): 12.705099730591671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informative path planning (IPP) is a crucial task in robotics, where agents must design paths to gather valuable information about a target environment while adhering to resource constraints. Reinforcement learning (RL) has been shown to be effective for IPP, however, it requires environment interactions, which are risky and expensive in practice. To address this problem, we propose an offline RL-based IPP framework that optimizes information gain without requiring real-time interaction during training, offering safety and cost-efficiency by avoiding interaction, as well as superior performance and fast computation during execution -- key advantages of RL. Our framework leverages batch-constrained reinforcement learning to mitigate extrapolation errors, enabling the agent to learn from pre-collected datasets generated by arbitrary algorithms. We validate the framework through extensive simulations and real-world experiments. The numerical results show that our framework outperforms the baselines, demonstrating the effectiveness of the proposed approach.
- Abstract(参考訳): インフォーマティブ・パス・プランニング(IPP)はロボット工学において重要な課題であり、エージェントはリソース制約に固執しながら、対象環境に関する貴重な情報を収集するために経路を設計しなければならない。
強化学習(RL)はIPPに有効であることが示されているが、実際はリスクが高く高価な環境相互作用が必要である。
この問題に対処するために、トレーニング中のリアルタイムインタラクションを必要とせず、情報ゲインを最適化するオフラインのRLベースのIPPフレームワークを提案する。
我々のフレームワークは、バッチ制約付き強化学習を利用して外挿誤差を軽減し、任意のアルゴリズムで生成された事前コンパイルデータセットからエージェントを学習する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
その結果,本フレームワークはベースラインよりも優れ,提案手法の有効性が示された。
関連論文リスト
- Learning Optimal and Sample-Efficient Decision Policies with Guarantees [3.096615629099617]
この論文は、隠れた共同創設者の存在下で、オフラインデータセットから学ぶことの問題を解決する。
コンバージェンスと最適性を保証する条件付きモーメント制約問題の解法として,サンプル効率のアルゴリズムを導出する。
また,収束率保証を伴う効果的な模倣者ポリシーを学習するアルゴリズムも開発している。
論文 参考訳(メタデータ) (2026-02-20T04:24:49Z) - Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - Scaling Online Distributionally Robust Reinforcement Learning: Sample-Efficient Guarantees with General Function Approximation [18.596128578766958]
分散ロバストなRL(DR-RL)は、不確実な遷移ダイナミクスの集合に対して最悪の性能を最適化することでこの問題に対処する。
本稿では,環境との相互作用によって最適なロバストポリシーを純粋に学習する一般関数近似を用いたオンラインDR-RLアルゴリズムを提案する。
本研究では,全変量不確実性セットの下でほぼ最適準線形後悔境界を確立する理論解析を行い,本手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-12-22T02:12:04Z) - Data-Efficient RLVR via Off-Policy Influence Guidance [84.60336960383867]
本研究は,学習目標に対する各データポイントの寄与を推定するために,影響関数を用いた理論的基礎的アプローチを提案する。
textbfCurriculum textbfRL with textbfOff-textbfPolicy textInfluence Guide (textbfCROPI) は多段階のRLフレームワークで、現在のポリシーにおいて最も影響力のあるデータを反復的に選択する。
論文 参考訳(メタデータ) (2025-10-30T13:40:52Z) - Expressive Value Learning for Scalable Offline Reinforcement Learning [9.946269411850064]
強化学習(Reinforcement Learning, RL)は、意思決定の順序を学習するための強力なパラダイムである。
オフラインRLは、大規模で多様なデータセットのトレーニングエージェントによる有望な道を提供する。
オフライン強化学習のための表現的価値学習(EVOR)を導入する。これはスケーラブルなオフラインRLアプローチであり、表現的ポリシーと表現的価値関数を統合している。
論文 参考訳(メタデータ) (2025-10-09T13:42:20Z) - Provably Near-Optimal Distributionally Robust Reinforcement Learning in Online Settings [10.983897709591885]
強化学習(Reinforcement Learning, RL)は、実世界のデプロイにおいて、sim-to-realギャップによって大きな課題に直面している。
我々は、エージェントが未知のトレーニング環境のみと対話するオンライン分散ロバストなRLの、より現実的で挑戦的な設定について研究する。
本稿では,最小限の仮定で線形後悔を保証する計算効率のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-05T03:36:50Z) - Optimizing Job Allocation using Reinforcement Learning with Graph Neural Networks [0.0]
複雑なスケジューリング問題における効率的なジョブ割り当ては、現実世界のアプリケーションにおいて大きな課題をもたらす。
ジョブ割り当て問題(JAP)に取り組むために、強化学習(RL)とグラフニューラルネットワーク(GNN)の力を利用する新しいアプローチを提案する。
本手法は, グラフ構造化データを利用して, 環境との試行錯誤による適応ポリシーの学習を可能にする。
論文 参考訳(メタデータ) (2025-01-31T11:50:04Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - PeersimGym: An Environment for Solving the Task Offloading Problem with Reinforcement Learning [2.0249250133493195]
計算ネットワークにおけるタスクオフロード戦略の開発と最適化に適した,オープンソースのカスタマイズ可能なシミュレーション環境であるPeersimGymを紹介する。
PeersimGymは、幅広いネットワークトポロジと計算制約をサポートし、TextitPettingZooベースのインターフェイスを統合して、RLエージェントのデプロイを、単体とマルチエージェントの両方で行えるようにしている。
本稿では,分散コンピューティング環境におけるオフロード戦略を大幅に強化するRLベースのアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-03-26T12:12:44Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。