論文の概要: GoalLadder: Incremental Goal Discovery with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.16396v1
- Date: Thu, 19 Jun 2025 15:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.134467
- Title: GoalLadder: Incremental Goal Discovery with Vision-Language Models
- Title(参考訳): GoalLadder: ビジョンランゲージモデルによるインクリメンタル目標発見
- Authors: Alexey Zakharov, Shimon Whiteson,
- Abstract要約: 視覚環境における単一言語命令からRLエージェントを学習する新しい手法を提案する。
GoalLadderは、自然言語で指定されたタスクの完了にエージェントを近づける状態の漸進的な発見で動作する。
以前の作業とは異なり、GoalLadderはVLMのフィードバックを完全に信頼していない。
- 参考スコア(独自算出の注目度): 38.35578010611503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language can offer a concise and human-interpretable means of specifying reinforcement learning (RL) tasks. The ability to extract rewards from a language instruction can enable the development of robotic systems that can learn from human guidance; however, it remains a challenging problem, especially in visual environments. Existing approaches that employ large, pretrained language models either rely on non-visual environment representations, require prohibitively large amounts of feedback, or generate noisy, ill-shaped reward functions. In this paper, we propose a novel method, $\textbf{GoalLadder}$, that leverages vision-language models (VLMs) to train RL agents from a single language instruction in visual environments. GoalLadder works by incrementally discovering states that bring the agent closer to completing a task specified in natural language. To do so, it queries a VLM to identify states that represent an improvement in agent's task progress and to rank them using pairwise comparisons. Unlike prior work, GoalLadder does not trust VLM's feedback completely; instead, it uses it to rank potential goal states using an ELO-based rating system, thus reducing the detrimental effects of noisy VLM feedback. Over the course of training, the agent is tasked with minimising the distance to the top-ranked goal in a learned embedding space, which is trained on unlabelled visual data. This key feature allows us to bypass the need for abundant and accurate feedback typically required to train a well-shaped reward function. We demonstrate that GoalLadder outperforms existing related methods on classic control and robotic manipulation environments with the average final success rate of $\sim$95% compared to only $\sim$45% of the best competitor.
- Abstract(参考訳): 自然言語は、強化学習(RL)タスクを特定する簡潔で人間の解釈可能な手段を提供することができる。
言語指導から報酬を抽出する能力は、人間の指導から学べるロボットシステムの開発を可能にする。
大規模で事前訓練された言語モデルを使用する既存のアプローチは、非視覚的環境表現に依存するか、違法に大量のフィードバックを必要とするか、ノイズの多い不規則な報酬関数を生成する。
本稿では視覚環境における単一の言語命令からRLエージェントを訓練するために視覚言語モデル(VLM)を活用する新しい手法である$\textbf{GoalLadder}$を提案する。
GoalLadderは、自然言語で指定されたタスクの完了にエージェントを近づける状態の漸進的な発見で動作する。
そのために、VLMに問い合わせて、エージェントのタスク進捗の改善を表す状態を特定し、ペア比較でそれらをランク付けする。
従来の作業とは異なり、GoalLadderはVLMのフィードバックを完全に信頼していない。代わりに、ELOベースのレーティングシステムを使用して潜在的目標状態のランク付けに使用するため、ノイズの多いVLMフィードバックによる有害な影響を減らすことができる。
トレーニング中、エージェントは学習された埋め込み空間において、最上位の目標までの距離を最小化する。
このキーとなる機能は、よく形が整った報酬関数をトレーニングするために必要な、豊富な正確なフィードバックの必要性を回避できます。
GoalLadderは古典的な制御環境やロボット操作環境において、最も優れた競争相手のわずか$\sim$45%に対して、最終的な成功率は$\sim$95%である。
関連論文リスト
- Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。
視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。
我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-04T06:34:24Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - Yell At Your Robot: Improving On-the-Fly from Language Corrections [84.09578841663195]
高いレベルのポリシーは、人間のフィードバックによって言語修正の形で容易に管理できることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことを可能にする。
論文 参考訳(メタデータ) (2024-03-19T17:08:24Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:06:17Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。