論文の概要: RoHIL: Robust Human-in-the-Loop Robotic Reinforcement Learning Against Illumination Variations
- arxiv url: http://arxiv.org/abs/2605.19924v1
- Date: Tue, 19 May 2026 14:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.408977
- Title: RoHIL: Robust Human-in-the-Loop Robotic Reinforcement Learning Against Illumination Variations
- Title(参考訳): RoHIL:照明変動に対するロバストなロボット強化学習
- Authors: Shuoqin Zhang, Yixin Xiong, Xiru Gao, Kai Liu, Ke Wang, Xichuan Zhou, Zhe Hu,
- Abstract要約: RoHILはオフラインの微調整フレームワークで、追加のリアルタイムロボットインタラクションを使用しない。
ソースワークステーション性能を維持しながら、標準のHIL-RLが崩壊するシフトライト性能を改善する。
- 参考スコア(独自算出の注目度): 11.871773132151654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-in-the-loop reinforcement learning systems achieve near-perfect success on the workstation where they are trained, but collapse when the same robot is moved to a workstation a few meters away due to shifts in the visual input distribution caused by new lamp positions and window light. Re-collecting demonstrations and re-running HIL on every workstation is incompatible with deployment, and naively fine-tuning on shifted-light data triggers catastrophic forgetting of the source workstation. To close this cross-domain gap, we present RoHIL, an offline fine-tuning framework that uses no extra real-robot interaction. RoHIL combines (i) a world-model-based image relighter that re-synthesises the visual stream of source-workstation trajectories under multiple virtual HDRI environments, leaving actions and rewards real; (ii) Illumination-Retention Replay (IRR), a data-level anti-forgetting mechanism that interleaves relit adaptation transitions with original-light retention transitions to preserve source-workstation Bellman coverage; and (iii) an anchored Bellman-actor regulariser that constrains representation and policy drift from the original source-workstation policy. Across four real-robot manipulation tasks under significant cross-workstation illumination variations, RoHIL substantially improves shifted-light performance where standard HIL-RL collapses, while preserving source-workstation performance, eliminating the need to re-collect data and retrain for every new workstation and environment. Project page: https://anonymous4365.github.io/RoHIL/
- Abstract(参考訳): ヒト・イン・ザ・ループ強化学習システムは、トレーニング対象のワークステーションでほぼ完璧に成功を収めるが、新しいランプ位置とウィンドウライトによる視覚的入力分布の変化により、同じロボットが数メートル離れたワークステーションに移動すると崩壊する。
デモを再コンパイルし、すべてのワークステーションでHILを再実行することは、デプロイメントとは相容れない。
このドメイン間のギャップを埋めるために、オフラインでリアルタイム・ロボットのインタラクションを使わない微調整フレームワークであるRoHILを紹介します。
RoHILが組み合わさる
(i)複数の仮想HDRI環境下でソース・ワークステーション軌道の視覚的流れを再生し、行動や報酬を現実に残すワールド・モデル・イメージ・リライナー
(II)イルミネーション・リテンション・リプレイ(IRR)
(iii)元のソースワークステーションポリシーから表現とポリシーを制約するアンカー付きベルマン・アクター正規化器。
RoHILは4つの実ロボット操作タスクにおいて、ワークステーション間の照明の大幅なバリエーションの下で、標準のHIL-RLが崩壊するシフトライト性能を大幅に改善し、また、ソースワークステーションのパフォーマンスを保ち、新しいワークステーションや環境ごとにデータの再コンパイルや再トレーニングを不要とした。
プロジェクトページ: https://anonymous4365.github.io/RoHIL/
関連論文リスト
- HIR-ALIGN: Enhancing Hyperspectral Image Restoration via Diffusion-Based Data Generation [50.46910397782266]
ハイパスペクトル画像(HSI)の復元は、ノイズ、ぼかし、分解能損失などの劣化に悩まされるため、信頼性の高い解析に不可欠である。
本稿では,HIR-ALIGNを提案する。HIR-ALIGNは,限られたトレーニング画像と,ターゲット分布と密に一致した合成データとを付加して,ハイパースペクトル画像の復元を促進するための,プラグアンドプレイのターゲット適応型拡張フレームワークである。
論文 参考訳(メタデータ) (2026-05-13T14:14:13Z) - RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - CORAL: Scalable Multi-Task Robot Learning via LoRA Experts [49.759823970016974]
実世界のロボット工学におけるビジョン・ランゲージ・アクション(VLA)モデルは、コアマルチタスク学習の課題を露呈する。
タスク毎に個別の完全なチェックポイントを維持することは、しばしばストレージとデプロイメントの禁止である。
主にマルチタスク干渉を軽減するために設計されたバックボーンおよび非依存のフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2026-03-10T07:28:41Z) - End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting [3.398964351541323]
そこで本研究では,強化学習政策のシミュレートから現実への移行手法を提案する。
スタイル転送のための自己教師付き特徴表現を共同学習するために,変分オートエンコーダを用いる。
本稿では,未知素材のロボット切断を事例として,本手法の適用例を示す。
論文 参考訳(メタデータ) (2026-01-28T18:45:55Z) - Sim-to-Real Transfer via a Style-Identified Cycle Consistent Generative Adversarial Network: Zero-Shot Deployment on Robotic Manipulators through Visual Domain Adaptation [1.0499611180329804]
深層強化学習(Dep Reinforcement Learning, DRL)は、実世界の訓練のコストと時間的要求により、その産業的採用を損なう。
仮想環境はDRLエージェントを訓練するためのコスト効率の良い代替手段を提供するが、学習したポリシーの実際のセットアップへの移動は、sim-to-realギャップによって妨げられる。
本研究は,CycleGANベースモデルであるStyleID-CycleGAN(StyleID-CycleGAN, SICGAN)に基づく新しい領域適応手法を提案する。
論文 参考訳(メタデータ) (2026-01-23T11:48:15Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - Safe Deployment of Offline Reinforcement Learning via Input Convex Action Correction [9.509828265491064]
オフライン強化学習(オフラインRL)は、化学プロセスシステムにおける制御戦略を開発するための有望なフレームワークを提供する。
本研究は, 常用RLを高効率で高効率に利用し, 室温重合反応器の高効率制御について検討する。
論文 参考訳(メタデータ) (2025-07-30T12:58:02Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - An A* Curriculum Approach to Reinforcement Learning for RGBD Indoor
Robot Navigation [6.660458629649825]
最近リリースされたhabitatのようなフォトリアリスティックシミュレータは、知覚から直接制御アクションを出力するネットワークのトレーニングを可能にする。
本稿では,知覚の訓練とニューラルネットの制御を分離し,経路の複雑さを徐々に増すことにより,この問題を克服しようとする。
論文 参考訳(メタデータ) (2021-01-05T20:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。