論文の概要: VLGOR: Visual-Language Knowledge Guided Offline Reinforcement Learning for Generalizable Agents
- arxiv url: http://arxiv.org/abs/2603.22892v1
- Date: Tue, 24 Mar 2026 07:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.361937
- Title: VLGOR: Visual-Language Knowledge Guided Offline Reinforcement Learning for Generalizable Agents
- Title(参考訳): VLGOR: 汎用エージェントのためのオフライン強化学習のためのビジュアル言語知識ガイド
- Authors: Pengsen Liu, Maosen Zeng, Nan Tang, Kaiyuan Li, Jing-Cheng Pang, Yunan Liu, Yang Yu,
- Abstract要約: 大規模言語モデル(LLM)と強化学習(RL)により、エージェントはタスク実行のために言語命令をより効率的に解釈できる。
本稿では,視覚知識と言語知識を統合し,仮想ロールアウトを生成するフレームワークであるVisual-Language Knowledge-Guided Offline Reinforcement Learning (VLGOR)を提案する。
ロボット操作ベンチマークの実験では、VLGORは新たな最適ポリシーを必要とする未確認タスクのパフォーマンスを著しく改善し、ベースライン法よりも24%以上の成功率を達成した。
- 参考スコア(独自算出の注目度): 14.848584432075285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Combining Large Language Models (LLMs) with Reinforcement Learning (RL) enables agents to interpret language instructions more effectively for task execution. However, LLMs typically lack direct perception of the physical environment, which limits their understanding of environmental dynamics and their ability to generalize to unseen tasks. To address this limitation, we propose Visual-Language Knowledge-Guided Offline Reinforcement Learning (VLGOR), a framework that integrates visual and language knowledge to generate imaginary rollouts, thereby enriching the interaction data. The core premise of VLGOR is to fine-tune a vision-language model to predict future states and actions conditioned on an initial visual observation and high-level instructions, ensuring that the generated rollouts remain temporally coherent and spatially plausible. Furthermore, we employ counterfactual prompts to produce more diverse rollouts for offline RL training, enabling the agent to acquire knowledge that facilitates following language instructions while grounding in environments based on visual cues. Experiments on robotic manipulation benchmarks demonstrate that VLGOR significantly improves performance on unseen tasks requiring novel optimal policies, achieving a success rate over 24% higher than the baseline methods.
- Abstract(参考訳): 大規模言語モデル(LLM)と強化学習(RL)を組み合わせることで、エージェントはタスク実行のために言語命令をより効率的に解釈できる。
しかし、LLMは、環境力学の理解と、目に見えないタスクに一般化する能力を制限する物理的環境に対する直接的な認識を欠いているのが一般的である。
この制限に対処するため,視覚知識と言語知識を統合し,仮想ロールアウトを生成し,インタラクションデータを強化するフレームワークであるVisual-Language Knowledge-Guided Offline Reinforcement Learning (VLGOR)を提案する。
VLGORの中核となる前提は、視覚言語モデルを微調整し、初期視覚観察と高レベルの指示で条件付けられた将来の状態と動作を予測し、生成したロールアウトが時間的コヒーレントで空間的に妥当であることを保証することである。
さらに、オフラインのRLトレーニングにおいて、より多様なロールアウトを生成するために、対実的なプロンプトを用いて、視覚的手がかりに基づいて環境に接地しながら、後続の言語指示を容易にする知識をエージェントが取得できるようにする。
ロボット操作ベンチマークの実験では、VLGORは新たな最適ポリシーを必要とする未確認タスクのパフォーマンスを著しく改善し、ベースライン法よりも24%以上の成功率を達成した。
関連論文リスト
- Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文 参考訳(メタデータ) (2025-12-04T16:54:41Z) - The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data [50.544186914115045]
TEDUOは、シンボリック環境におけるオフライン言語条件のポリシー学習のための、新しいトレーニングパイプラインである。
まず、オフラインデータセットをよりリッチなアノテーションで拡張する自動化ツールとして、次に、一般化可能な命令フォローエージェントとして使用します。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。