Fugu-MT 論文翻訳(概要): Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

論文の概要: Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.09331v1
Date: Tue, 10 Mar 2026 08:07:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.139954
Title: Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning
Title（参考訳）: Reward-Zero:強化学習のための言語埋め込み型インシシデント・リワード機構
Authors: Heng Zhang, Haddy Alchaer, Arash Ajoudani, Yu She,
Abstract要約: 本稿では,汎用的な暗黙報酬機構であるReward-Zeroを紹介する。自然言語によるタスク記述を、強化学習のための密集した意味的基礎的な進捗信号に変換する。タスク仕様の埋め込みとエージェントのインタラクションエクスペリエンスから派生した埋め込みを比較することで、Reward-Zeroは連続的に意味的に整合した補完信号を生成する。
参考スコア（独自算出の注目度）: 17.337313113918043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Reward-Zero, a general-purpose implicit reward mechanism that transforms natural-language task descriptions into dense, semantically grounded progress signals for reinforcement learning (RL). Reward-Zero serves as a simple yet sophisticated universal reward function that leverages language embeddings for efficient RL training. By comparing the embedding of a task specification with embeddings derived from an agent's interaction experience, Reward-Zero produces a continuous, semantically aligned sense-of-completion signal. This reward supplements sparse or delayed environmental feedback without requiring task-specific engineering. When integrated into standard RL frameworks, it accelerates exploration, stabilizes training, and enhances generalization across diverse tasks. Empirically, agents trained with Reward-Zero converge faster and achieve higher final success rates than conventional methods such as PPO with common reward-shaping baselines, successfully solving tasks that hand-designed rewards could not in some complex tasks. In addition, we develop a mini benchmark for the evaluation of completion sense during task execution via language embeddings. These results highlight the promise of language-driven implicit reward functions as a practical path toward more sample-efficient, generalizable, and scalable RL for embodied agents. Code will be released after peer review.
Abstract（参考訳）: Reward-Zeroは、自然言語のタスク記述を、強化学習(RL)のための密集的、意味的に基礎付けられた進行信号に変換する汎用的な暗黙報酬機構である。 Reward-Zeroは、言語埋め込みを利用して効率的なRLトレーニングを行う、シンプルだが洗練されたユニバーサル報酬関数として機能する。タスク仕様の埋め込みとエージェントのインタラクションエクスペリエンスから派生した埋め込みを比較することで、Reward-Zeroは連続的に意味的に整合した補完信号を生成する。この報酬は、タスク固有のエンジニアリングを必要とせずに、スパースや遅延した環境フィードバックを補う。標準のRLフレームワークに統合されると、探索を加速し、トレーニングを安定化し、さまざまなタスクにわたる一般化を強化する。実証的に、Reward-Zeroで訓練されたエージェントは、一般的な報酬形成ベースラインを持つPPOのような従来の手法よりも早く収束し、最終的な成功率を高める。さらに,言語埋め込みによるタスク実行中の完了感評価のためのミニベンチマークを開発する。これらの結果は,よりサンプル効率,一般化可能,スケーラブルなRLを具体化するための実践的経路として,言語駆動型暗黙の報酬関数が期待できることを示す。コードはピアレビュー後にリリースされる。

関連論文リスト

Reward-Conditioned Reinforcement Learning [56.417273471201845]
Reward-Conditioned Reinforcement Learning (RCRL) は、報酬仕様のファミリーを最適化するために単一のエージェントを訓練するフレームワークである。 RCRLは、報酬パラメータ化のエージェントを条件付け、共有されたリプレイデータから複数の報酬目標を学習する。その結果、RCRLはシングルタスクトレーニングの単純さを犠牲にすることなく、堅牢でステアブルなポリシを学習するためのスケーラブルなメカニズムを提供することを示した。
論文参考訳（メタデータ） (2026-03-05T11:29:17Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文参考訳（メタデータ） (2025-05-30T14:34:57Z)
Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-14T04:06:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。