論文の概要: Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL
- arxiv url: http://arxiv.org/abs/2602.12636v1
- Date: Fri, 13 Feb 2026 05:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.859454
- Title: Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL
- Title(参考訳): RL高能率心電図による二重角性逆流の検討
- Authors: Xin Liu, Yixuan Li, Yuhui Chen, Yuxing Qin, Haoran Li, Dongbin Zhao,
- Abstract要約: 軌道成功報酬は人間の判断やモデル適合に適しているが、スパーシティはRLサンプルの効率を著しく制限する。
本稿では,DEG(Dual-granularity contrastive reward)とDEG(Dual-granularity contrastive reward)を併用して,サンプル効率の高い高密度報酬を求める手法を提案する。
- 参考スコア(独自算出の注目度): 33.68498302639824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing suitable rewards poses a significant challenge in reinforcement learning (RL), especially for embodied manipulation. Trajectory success rewards are suitable for human judges or model fitting, but the sparsity severely limits RL sample efficiency. While recent methods have effectively improved RL via dense rewards, they rely heavily on high-quality human-annotated data or abundant expert supervision. To tackle these issues, this paper proposes Dual-granularity contrastive reward via generated Episodic Guidance (DEG), a novel framework to seek sample-efficient dense rewards without requiring human annotations or extensive supervision. Leveraging the prior knowledge of large video generation models, DEG only needs a small number of expert videos for domain adaptation to generate dedicated task guidance for each RL episode. Then, the proposed dual-granularity reward that balances coarse-grained exploration and fine-grained matching, will guide the agent to efficiently approximate the generated guidance video sequentially in the contrastive self-supervised latent space, and finally complete the target task. Extensive experiments on 18 diverse tasks across both simulation and real-world settings show that DEG can not only serve as an efficient exploration stimulus to help the agent quickly discover sparse success rewards, but also guide effective RL and stable policy convergence independently.
- Abstract(参考訳): 適切な報酬を設計することは強化学習(RL)において重要な課題であり、特に体操において重要である。
軌道成功報酬は人間の判断やモデル適合に適しているが、スパーシティはRLサンプルの効率を著しく制限する。
近年の手法では、高密度報酬によってRLを効果的に改善しているが、高品質な人間注釈付きデータや豊富な専門家の監督に大きく依存している。
これらの課題に対処するために,人間のアノテーションや広範囲の監督を必要とせず,サンプル効率の高い高密度報酬を求める新しいフレームワークであるDEG(Dual-granularity contrastive reward)を提案する。
大規模なビデオ生成モデルの事前知識を活用するため、DECはRLエピソードごとに専用のタスクガイダンスを生成するために、ドメイン適応のための少数の専門的なビデオしか必要としない。
そして、粗粒度探索と微粒度マッチングのバランスをとる二重粒度報酬を提案し、エージェントを誘導し、対照的な自己監督型潜伏空間において生成したガイダンスビデオを逐次的に近似し、最終的に目標タスクを完了させる。
シミュレーションと実世界の双方にわたる18の多様なタスクに関する広範な実験により、DECは、エージェントがスパース成功報酬を迅速に発見するのに役立つ効率的な探索刺激として機能するだけでなく、効果的なRLと安定した政策収束を独立に導くことができることが示された。
関連論文リスト
- Adaptive Milestone Reward for GUI Agents [38.548364518806046]
本稿では,Adaptive Milestone Reward (ADMIRE) 機構を提案する。
ADMIREは、軌道をマイルストーンに固定することで、検証可能な適応的な報酬システムを構築する。
実験によると、ADMIREは成功率において10%以上の絶対的な改善をもたらす。
論文 参考訳(メタデータ) (2026-02-12T03:31:40Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-02-03T11:39:50Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。