論文の概要: Hybrid TD3: Overestimation Bias Analysis and Stable Policy Optimization for Hybrid Action Space
- arxiv url: http://arxiv.org/abs/2603.01302v1
- Date: Sun, 01 Mar 2026 22:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.807731
- Title: Hybrid TD3: Overestimation Bias Analysis and Stable Policy Optimization for Hybrid Action Space
- Title(参考訳): ハイブリッドTD3:ハイブリッド行動空間に対する過大評価バイアス解析と安定政策最適化
- Authors: Thanh-Tuan Tran, Thanh Nguyen Canh, Nak Young Chong, Xiem HoangVan,
- Abstract要約: 本稿では、パラメータ化されたハイブリッドアクション空間を原則的に処理するTD3(Twin Delayed Deep Deterministic Policy Gradient)の拡張であるHybrid TD3を提案する。
我々は,ハイブリッド行動設定における過大評価バイアスの理論的解析を行い,双極的アーキテクチャの下での形式的境界を導出する。
本稿では、離散的な行動分布を極小化して、標準的なクリッピング最小化に等価なバイアス低減を実現する重み付きQ-ラーニングターゲットを提案する。
- 参考スコア(独自算出の注目度): 2.4382430407654767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning in discrete-continuous hybrid action spaces presents fundamental challenges for robotic manipulation, where high-level task decisions and low-level joint-space execution must be jointly optimized. Existing approaches either discretize continuous components or relax discrete choices into continuous approximations, which suffer from scalability limitations and training instability in high-dimensional action spaces and under domain randomization. In this paper, we propose Hybrid TD3, an extension of Twin Delayed Deep Deterministic Policy Gradient (TD3) that natively handles parameterized hybrid action spaces in a principled manner. We conduct a rigorous theoretical analysis of overestimation bias in hybrid action settings, deriving formal bounds under twin-critic architectures and establishing a complete bias ordering across five algorithmic variants. Building on this analysis, we introduce a weighted clipped Q-learning target that marginalizes over the discrete action distribution, achieving equivalent bias reduction to standard clipped minimization while improving policy smoothness. Experimental results demonstrate that Hybrid TD3 achieves superior training stability and competitive performance against state-of-the-art hybrid action baselines
- Abstract(参考訳): 離散連続型ハイブリッド行動空間における強化学習は、高レベルなタスク決定と低レベルな共同空間実行を共同で最適化する必要があるロボット操作の基本的な課題を示す。
既存のアプローチは、連続成分を離散化するか、連続近似に離散的な選択を緩和するかのいずれかであり、これは高次元のアクション空間やドメインのランダム化の下で、スケーラビリティの制限とトレーニングの不安定性に悩まされている。
本稿では,Twin Delayed Deep Deterministic Policy Gradient(TD3)の拡張であるHybrid TD3を提案する。
我々は、ハイブリッドアクション設定における過大評価バイアスの厳密な理論的解析を行い、ツイン・クリティック・アーキテクチャの下での形式的境界を導出し、5つのアルゴリズム的変種にまたがる完全なバイアスを定めている。
この分析に基づいて、離散的な行動分布を極小化し、ポリシーのスムーズさを改善しつつ、標準的なクリップ化された最小化に等価なバイアス低減を実現する、重み付きクリップ付きQ-ラーニングターゲットを導入する。
ハイブリッドTD3は、最先端ハイブリッドアクションベースラインに対する訓練安定性と競争性能を向上することを示す実験結果が得られた。
関連論文リスト
- Coordinated Manipulation of Hybrid Deformable-Rigid Objects in Constrained Environments [3.915966095774856]
本研究は, ひずみに基づくコッサートロッドモデルを用いた準静電最適化に基づく操作プランナを提案する。
これは、厳密なツールで到達不能なオブジェクトに対して、タスク空間の目的を達成する一方で、制約を通して操作するための変形可能なリンクのコンプライアンスを利用する。
提案アルゴリズムは、様々なhDLOシステム上でのシミュレーションや、双腕ロボットシステムを用いた制約環境で操作された3リンクhDLOの実験で検証される。
論文 参考訳(メタデータ) (2026-03-13T12:34:49Z) - SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning [21.113678610046453]
我々は、堅牢で物理的に具体化された計画のための3段階統合フレームワークであるSVLL(Staged Vision-Language Learning)を提案する。
最初の2段階では、SVLLは時間的推論から空間的グラウンドを分離し、シーケンシャルなアクション履歴を導入する前に、堅牢な視覚的依存を確立する。
最終段階では、標準の直接選好最適化(DPO)の重要な制限、すなわち純粋に相対的な性質を識別し、勝利と敗戦の選好ギャップのみを最適化する。
論文 参考訳(メタデータ) (2026-03-12T05:35:29Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Constrained Dynamic Gaussian Splatting [47.982650444869336]
Constrained Dynamic Gaussian Splatting (CDGS)は、動的シーン再構成を予算制約付き最適化問題として定式化する新しいフレームワークである。
本報告では,CDGSは,最先端手法に比べて3倍以上の圧縮を実現し,キャパシティの限界下で最適なレンダリング品質を提供することを示す。
論文 参考訳(メタデータ) (2026-02-03T13:53:29Z) - Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios [4.735413508037063]
本稿では,視覚障害者の補助ナビゲーションに適した運動量制約付きハイブリッド軌道最適化フレームワーク(MHHTOF)を提案する。
残留深部強化学習(DRL)による軌道サンプリング生成、最適化、評価の統合
実験の結果,提案したLSTM-BResPPOは,PPOが要求する約半数のトレーニングにおいて,安定な政策性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2025-09-19T04:33:39Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - Benchmarking Smoothness and Reducing High-Frequency Oscillations in Continuous Control Policies [3.224364956163198]
強化学習(RL)ポリシは、特に現実世界のハードウェアにデプロイする場合、高周波の発振を引き起こす。
深部RLにおける高周波発振を緩和することを目的とした文献からの手法を同定し,分類し,比較する。
最適性能のハイブリッドは,他の手法よりも優れており,ベースラインよりも26.8%スムーズ性の向上が期待できる。
論文 参考訳(メタデータ) (2024-10-22T02:21:30Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。