論文の概要: Vision-driven River Following of UAV via Safe Reinforcement Learning using Semantic Dynamics Model
- arxiv url: http://arxiv.org/abs/2508.09971v2
- Date: Tue, 30 Sep 2025 20:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.695605
- Title: Vision-driven River Following of UAV via Safe Reinforcement Learning using Semantic Dynamics Model
- Title(参考訳): セマンティックダイナミクスモデルを用いた安全強化学習によるUAVの視覚駆動型河川追従
- Authors: Zihan Wang, Nina Mahmoudian,
- Abstract要約: 無人航空機による視覚駆動の自律川は、救助、監視、環境監視といった用途に欠かせない。
本稿では,報酬優位関数を改良したMarginal Gain Advantage Estimationを紹介する。
次に, セマンティック・ダイナミクス・モデルを構築し, セマンティック・ダイナミクス・モデルを構築した。
第3に、コスト優位性評価のためにアクター、コスト推定器、SDMを統合するConstrained Actor Dynamics Estimatorアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 11.28895057233897
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-driven autonomous river following by Unmanned Aerial Vehicles is critical for applications such as rescue, surveillance, and environmental monitoring, particularly in dense riverine environments where GPS signals are unreliable. These safety-critical navigation tasks must satisfy hard safety constraints while optimizing performance. Moreover, the reward in river following is inherently history-dependent (non-Markovian) by which river segment has already been visited, making it challenging for standard safe Reinforcement Learning (SafeRL). To address these gaps, we propose three contributions. First, we introduce Marginal Gain Advantage Estimation, which refines the reward advantage function by using a sliding window baseline computed from historical episodic returns, aligning the advantage estimate with non-Markovian dynamics. Second, we develop a Semantic Dynamics Model based on patchified water semantic masks offering more interpretable and data-efficient short-term prediction of future observations compared to latent vision dynamics models. Third, we present the Constrained Actor Dynamics Estimator architecture, which integrates the actor, cost estimator, and SDM for cost advantage estimation to form a model-based SafeRL framework. Simulation results demonstrate that MGAE achieves faster convergence and superior performance over traditional critic-based methods like Generalized Advantage Estimation. SDM provides more accurate short-term state predictions that enable the cost estimator to better predict potential violations. Overall, CADE effectively integrates safety regulation into model-based RL, with the Lagrangian approach providing a "soft" balance between reward and safety during training, while the safety layer enhances inference by imposing a "hard" action overlay.
- Abstract(参考訳): 無人航空機による視覚駆動の自律川は、特にGPS信号が信頼できない密集した河川環境において、救助、監視、環境監視などの用途に欠かせない。
これらの安全クリティカルなナビゲーションタスクは、パフォーマンスを最適化しながら、ハードセーフな制約を満たす必要がある。
さらに,河川セグメントが既に訪れている歴史に依存しない(非マルコフ的)河川を追従する報奨は,標準的な安全強化学習(SafeRL)にとって困難である。
これらのギャップに対処するため、我々は3つのコントリビューションを提案する。
まず,マージナルゲインアドバンテージ推定(Marginal Gain Advantage Estimation)を導入する。これは,歴史的エピソード回帰から計算したスライディングウインドウベースラインを用いて,利益推定を非マルコフ力学と整合させることにより,報奨優位関数を洗練する。
第2に、潜時視覚力学モデルと比較して、より解釈可能で、データ効率のよい将来の観測の短期予測を提供する、パッチ付き水意味マスクに基づくセマンティック・ダイナミクス・モデルを開発する。
第3に,モデルベースのSafeRLフレームワークを構築するために,アクタ,コスト推定器,SDMを統合するConstrained Actor Dynamics Estimatorアーキテクチャを提案する。
シミュレーションの結果、MGAEは、一般化アドバンテージ推定のような従来の批判に基づく手法よりも、より高速な収束と優れた性能を実現することが示された。
SDMは、コスト推定器が潜在的な違反をより正確に予測できるように、より正確な短期状態予測を提供する。
全体として、CADEはモデルベースのRLに安全規制を効果的に統合し、ラグランジアンアプローチはトレーニング中に報酬と安全の間の「ソフト」バランスを提供し、安全層は「ハード」アクションオーバーレイを付与することで推論を強化する。
関連論文リスト
- From Scalar Rewards to Potential Trends: Shaping Potential Landscapes for Model-Based Reinforcement Learning [22.59885243102632]
SLOPE (Shaping Landscapes with Optimistic potential Estimates) は、報酬モデリングをスカラー予測から情報的潜在的景観構築に移行する新しいフレームワークである。
SLOPEは楽観的な分布回帰を用いて高信頼な上限を推定し、希少な成功信号を増幅し、十分な探査勾配を確保する。
5つのベンチマークで30以上のタスクを評価すると、SLOPEは、完全にスパース、半スパース、密度の高い報酬において、ベースラインを一貫して上回っていることが示される。
論文 参考訳(メタデータ) (2026-02-03T07:13:26Z) - Uncertainty Quantification for Large Language Model Reward Learning under Heterogeneous Human Feedback [8.538830579425147]
大規模言語(LLM)の整合に使用される推定モデルと統計的報酬モデルについて検討する。
LLMアライメントの重要な構成要素は、人間のフィードバックからの強化学習である。
論文 参考訳(メタデータ) (2025-12-02T20:22:25Z) - Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Latent Variable Modeling in Multi-Agent Reinforcement Learning via Expectation-Maximization for UAV-Based Wildlife Protection [0.0]
本稿では,野生生物保護の文脈における予測最大化に基づく潜在変数モデリング手法を提案する。
隠れた環境因子と潜伏変数によるエージェント間ダイナミクスをモデル化することにより,不確実性の下での探索と調整が促進される。
絶滅危惧種のイランヒョウの保護生息地をパトロールする10機のUAVを含むカスタムシミュレーションを用いてEM-MARLフレームワークの実装と評価を行った。
論文 参考訳(メタデータ) (2025-08-26T06:57:33Z) - Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics [34.570579623171476]
The First Reasoning, Then Forecasting”は、行動意図を軌道予測のための空間的ガイダンスとして明示的に組み込む戦略である。
本稿では,新しいクエリ中心の逆強化学習方式を基礎とした,解釈可能な報酬駆動型意図推論手法を提案する。
提案手法は軌道予測の信頼性を著しく向上させ,最先端手法と比較して高い競争性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T09:46:17Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Probabilistic Traffic Forecasting with Dynamic Regression [15.31488551912888]
本稿では,交通予測における誤り過程の学習を取り入れた動的回帰(DR)フレームワークを提案する。
このフレームワークは、行列構造自己回帰(AR)モデルを用いてベースモデルのエラー系列をモデル化することにより、時間独立の仮定を緩和する。
新たに設計された損失関数は、非等方的誤差項の確率に基づいており、モデルがベースモデルの元の出力を保持しながら確率的予測を生成することができる。
論文 参考訳(メタデータ) (2023-01-17T01:12:44Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。