論文の概要: GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.02180v1
- Date: Thu, 02 Oct 2025 16:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.212141
- Title: GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning
- Title(参考訳): GRACE: 説明可能な逆強化学習のための言語モデルフレームワーク
- Authors: Silvia Sapora, Devon Hjelm, Alexander Toshev, Omar Attia, Bogdan Mazoure,
- Abstract要約: 本稿では,進化探索における大規模言語モデルを用いた解釈可能なコードベース報酬関数のリバースエンジニアリング手法であるGRACEを紹介する。
その結果得られる報酬関数は、検査と検証が可能な実行可能なコードである。
BabyAIとAndroidWorldのベンチマークでGRACEを実証的に検証し、高い精度の報酬を効率よく学習する。
- 参考スコア(独自算出の注目度): 46.09328632452354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Reinforcement Learning aims to recover reward models from expert demonstrations, but traditional methods yield "black-box" models that are difficult to interpret and debug. In this work, we introduce GRACE (Generating Rewards As CodE), a method for using Large Language Models within an evolutionary search to reverse-engineer an interpretable, code-based reward function directly from expert trajectories. The resulting reward function is executable code that can be inspected and verified. We empirically validate GRACE on the BabyAI and AndroidWorld benchmarks, where it efficiently learns highly accurate rewards, even in complex, multi-task settings. Further, we demonstrate that the resulting reward leads to strong policies, compared to both competitive Imitation Learning and online RL approaches with ground-truth rewards. Finally, we show that GRACE is able to build complex reward APIs in multi-task setups.
- Abstract(参考訳): 逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬モデルを取り戻すことを目的としている。
本研究では,進化的探索における大規模言語モデルの利用法であるGRACE(Generating Rewards As CodE)を導入し,解釈可能なコードベース報酬関数を専門家の軌道から直接リバースエンジニアリングする。
その結果得られる報酬関数は、検査と検証が可能な実行可能なコードである。
BabyAIとAndroidWorldのベンチマークでGRACEを実証的に検証し、複雑なマルチタスク設定でも高い精度の報酬を効率よく学習します。
さらに,得られた報酬が,実効性のあるオンラインRLアプローチと競合するImitation Learningと比較して,強い政策につながることを実証した。
最後に、GRACEはマルチタスク設定で複雑な報酬APIを構築することができることを示す。
関連論文リスト
- A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Can Differentiable Decision Trees Enable Interpretable Reward Learning from Human Feedback? [10.968490626773564]
微分決定木(DDT)を用いた嗜好から表現的・解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。
CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-06-22T16:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。