論文の概要: DeGuV: Depth-Guided Visual Reinforcement Learning for Generalization and Interpretability in Manipulation
- arxiv url: http://arxiv.org/abs/2509.04970v1
- Date: Fri, 05 Sep 2025 09:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.556438
- Title: DeGuV: Depth-Guided Visual Reinforcement Learning for Generalization and Interpretability in Manipulation
- Title(参考訳): DeGuV: 操作における一般化と解釈性のための奥行き誘導型視覚強化学習
- Authors: Tien Pham, Xinyun Chi, Khang Nguyen, Manfred Huber, Angelo Cangelosi,
- Abstract要約: 本稿では,一般化とサンプル効率を両立させるRLフレームワークであるDeGuVを紹介する。
我々は、奥行き入力からマスクを生成する学習可能なマスカネットワークを活用し、重要な視覚情報のみを保存し、無関係なピクセルを破棄する。
さらに,コントラッシブ・ラーニングを取り入れ,改良後のQ値推定を安定化させ,サンプル効率とトレーニング安定性をさらに向上させる。
- 参考スコア(独自算出の注目度): 3.694734526301468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents can learn to solve complex tasks from visual inputs, but generalizing these learned skills to new environments remains a major challenge in RL application, especially robotics. While data augmentation can improve generalization, it often compromises sample efficiency and training stability. This paper introduces DeGuV, an RL framework that enhances both generalization and sample efficiency. In specific, we leverage a learnable masker network that produces a mask from the depth input, preserving only critical visual information while discarding irrelevant pixels. Through this, we ensure that our RL agents focus on essential features, improving robustness under data augmentation. In addition, we incorporate contrastive learning and stabilize Q-value estimation under augmentation to further enhance sample efficiency and training stability. We evaluate our proposed method on the RL-ViGen benchmark using the Franka Emika robot and demonstrate its effectiveness in zero-shot sim-to-real transfer. Our results show that DeGuV outperforms state-of-the-art methods in both generalization and sample efficiency while also improving interpretability by highlighting the most relevant regions in the visual input
- Abstract(参考訳): 強化学習(RL)エージェントは視覚的な入力から複雑なタスクを学習することができるが、これらの学習スキルを新しい環境に一般化することは、RLアプリケーション、特にロボット工学において大きな課題である。
データ拡張は一般化を改善することができるが、しばしばサンプル効率とトレーニングの安定性を損なう。
本稿では,一般化とサンプル効率を両立させるRLフレームワークであるDeGuVを紹介する。
具体的には、奥行き入力からマスクを生成する学習可能なマスカネットワークを活用し、重要な視覚情報のみを保存しつつ、無関係なピクセルを破棄する。
これにより、RLエージェントが本質的な機能に集中し、データ拡張時の堅牢性を向上させることが保証される。
さらに,コントラッシブ・ラーニングを取り入れ,改良後のQ値推定を安定化させ,サンプル効率とトレーニング安定性をさらに向上させる。
提案手法をFranka Emikaロボットを用いてRL-ViGenベンチマークで評価し,その実写におけるゼロショット・シミュレートの有効性を実証した。
以上の結果から,DeGuVは,視覚入力の最も関連性の高い領域を強調表示することにより,解釈性の向上とともに,一般化とサンプル効率の両面で最先端の手法より優れていることが示された。
関連論文リスト
- Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models [22.10168313140081]
本稿では,AIフィードバックから報酬関数を学習する評価に基づく強化学習手法ERL-VLMを紹介する。
ERL-VLMは、個々の軌道の絶対評価のために大きな視覚言語モデルをクエリし、より表現力のあるフィードバックを可能にする。
ERL-VLM は既存の VLM ベースの報酬生成手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-06-15T12:05:08Z) - Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals [49.17123504516502]
大規模言語モデル(LLM)のためのRFTパラダイムは、均一なデータサンプリングの下で同じクエリが冗長に露出するため、効率が悪い。
グラディエント駆動型アングルインフォームドナビゲーションRLフレームワークを提案する。
モデル固有の角度集中信号を利用することで、GAIN-RLは各エポックにおけるトレーニングデータを動的に選択し、一貫したインパクトのある勾配更新を確実にする。
論文 参考訳(メタデータ) (2025-06-02T21:40:38Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for
Visual Reinforcement Learning [27.205521177841568]
視覚強化学習(RL)のためのタスク対応リプシッツデータ拡張(TLDA)を提案する。
TLDAは、大きなリプシッツ定数を持つタスク関連画素を明確に識別し、タスク関連画素のみを拡大する。
3つの異なるビジュアルコントロールベンチマークにおいて、従来の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-02-21T04:22:07Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Seeking Visual Discomfort: Curiosity-driven Representations for
Reinforcement Learning [12.829056201510994]
状態表現学習におけるサンプルの多様性向上のためのアプローチを提案する。
提案手法は,問題状態の訪問を促進し,学習状態の表現を改善し,全てのテスト環境のベースラインを向上する。
論文 参考訳(メタデータ) (2021-10-02T11:15:04Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。