論文の概要: VIRAL: Vision-grounded Integration for Reward design And Learning
- arxiv url: http://arxiv.org/abs/2505.22092v2
- Date: Fri, 30 May 2025 07:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.123569
- Title: VIRAL: Vision-grounded Integration for Reward design And Learning
- Title(参考訳): VIRAL: リワードデザインと学習のための視覚的な統合
- Authors: Valentin Cuzin-Rambaud, Emilien Komlenovic, Alexandre Faure, Bruno Yun,
- Abstract要約: 強化学習は報酬関数の最大化を目的としている。
近年の進歩は、報酬生成のための大規模言語モデルが人間のパフォーマンスを上回っていることを示している。
報酬関数の生成と精算のためのパイプラインであるVIRALを紹介する。
- 参考スコア(独自算出の注目度): 43.51581973358462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment between humans and machines is a critical challenge in artificial intelligence today. Reinforcement learning, which aims to maximize a reward function, is particularly vulnerable to the risks associated with poorly designed reward functions. Recent advancements has shown that Large Language Models (LLMs) for reward generation can outperform human performance in this context. We introduce VIRAL, a pipeline for generating and refining reward functions through the use of multi-modal LLMs. VIRAL autonomously creates and interactively improves reward functions based on a given environment and a goal prompt or annotated image. The refinement process can incorporate human feedback or be guided by a description generated by a video LLM, which explains the agent's policy in video form. We evaluated VIRAL in five Gymnasium environments, demonstrating that it accelerates the learning of new behaviors while ensuring improved alignment with user intent. The source-code and demo video are available at: https://github.com/VIRAL-UCBL1/VIRAL and https://youtu.be/Hqo82CxVT38.
- Abstract(参考訳): 人間と機械の整合性は今日、人工知能にとって重要な課題である。
報酬関数の最大化を目的とした強化学習は、特に、設計の不十分な報酬関数に関連するリスクに対して脆弱である。
近年の進歩は、報酬生成のためのLarge Language Models (LLMs) が、この文脈での人間のパフォーマンスより優れていることを示している。
マルチモーダルLLMを用いて報酬関数の生成と精錬を行うパイプラインであるVIRALを紹介する。
VIRALは、与えられた環境とゴールプロンプトまたは注釈付き画像に基づいて、報酬関数を自律的に生成し、対話的に改善する。
精錬プロセスは、人間のフィードバックを組み込んだり、ビデオLLMによって生成された説明に導かれ、エージェントのポリシーをビデオ形式で説明することができる。
我々は,5つの体育館環境においてVIRALを評価し,ユーザ意図との整合性を確保しつつ,新たな行動の学習を促進できることを実証した。
ソースコードとデモビデオは以下の通りである。 https://github.com/VIRAL-UCBL1/VIRAL and https://youtu.be/Hqo82CxVT38。
関連論文リスト
- Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning [27.233232260388682]
そこで本研究では,シミュレーションや学習を行うビデオから報酬関数を直接生成する,新しい video2reward 手法を提案する。
本手法は,人間の正規化スコアにおいて,最先端のLCMに基づく報酬生成手法の性能を37.6%以上上回る。
論文 参考訳(メタデータ) (2024-12-07T03:10:27Z) - VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought [38.03704123835915]
ical は最適軌道を最適化された行動と詳細な推論で高品質なデータに洗練する。
TEACh、VisualWebArena、Ego4Dの最先端技術を上回っている。
ICALは生の人間のデモより2倍のスケールをし、手動のプロンプトエンジニアリングを減らします。
論文 参考訳(メタデータ) (2024-06-20T17:45:02Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。