論文の概要: SFO: Piloting VLM Feedback for Offline RL
- arxiv url: http://arxiv.org/abs/2503.01062v3
- Date: Sun, 23 Mar 2025 22:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:52.266606
- Title: SFO: Piloting VLM Feedback for Offline RL
- Title(参考訳): SFO: オフラインRLのためのVLMフィードバックのパイロット
- Authors: Jacob Beck,
- Abstract要約: VLM(Vision-Language Models)は、アクション条件のトレーニングデータがないため、制御タスクを解く能力に制限がある。
AIフィードバックからの強化学習における重要な課題は、VLM由来の信号を学習プロセスに統合する方法を決定することだ。
本稿では,人間のフィードバックに基づく手法から,より複雑な強化学習を達成し,よりシンプルで効果的なアプローチであるフィルタリングと重み付き行動クローニングを提案する。
- 参考スコア(独自算出の注目度): 1.3597551064547502
- License:
- Abstract: While internet-scale image and textual data have enabled strong generalization in Vision-Language Models (VLMs), the absence of internet-scale control data has impeded the development of similar generalization in standard reinforcement learning (RL) agents. Although VLMs are fundamentally limited in their ability to solve control tasks due to their lack of action-conditioned training data, their capacity for image understanding allows them to provide valuable feedback in RL tasks by recognizing successful outcomes. A key challenge in Reinforcement Learning from AI Feedback (RLAIF) is determining how best to integrate VLM-derived signals into the learning process. We explore this question in the context of offline RL and introduce a class of methods called sub-trajectory filtered optimization. We identify three key insights. First, trajectory length plays a crucial role in offline RL, as full-trajectory preference learning exacerbates the stitching problem, necessitating the use of sub-trajectories. Second, even in Markovian environments, a non-Markovian reward signal from a sequence of images is required to assess trajectory improvement, as VLMs do not interpret control actions and must rely on visual cues over time. Third, a simple yet effective approach--filtered and weighted behavior cloning--consistently outperforms more complex reinforcement learning from human feedback-based methods. We propose sub-trajectory filtered behavior cloning, a method that leverages VLM feedback on sub-trajectories while incorporating a retrospective filtering mechanism that removes sub-trajectories preceding failures to improve robustness and prevent turbulence. This study is preliminary; we provide initial evidence through evaluations on a toy control domain. Please enjoy our airport puns.
- Abstract(参考訳): インターネットスケールの画像とテキストデータにより視覚言語モデル(VLM)の強力な一般化が可能となったが、インターネットスケールの制御データがないため、標準強化学習(RL)エージェントにおける同様の一般化が妨げられている。
VLMは、アクション条件付きトレーニングデータがないため、制御タスクを解く能力に基本的に制限があるが、画像理解能力により、良好な結果を認識することで、RLタスクに価値あるフィードバックを提供することができる。
Reinforcement Learning from AI Feedback (RLAIF)における重要な課題は、VLM由来の信号を学習プロセスに統合する方法を決定することである。
本稿では、この問題をオフラインRLの文脈で検討し、サブトラジェクトリフィルタ最適化と呼ばれるメソッドのクラスを導入する。
私たちは3つの重要な洞察を特定します。
第一に、全軌跡選好学習は縫合問題を悪化させ、サブトラジェクトリの使用を必要とするため、軌道長はオフラインRLにおいて重要な役割を果たす。
第二に、マルコフ環境においても、VLMは制御動作を解釈せず、時間の経過とともに視覚的手がかりに頼らなければならないため、画像列からの非マルコフ報酬信号が軌道改善を評価するために必要である。
第三に、単純で効果的なアプローチ、フィルター付きで重み付けされた行動クローニングは、人間からのフィードバックに基づく手法によるより複雑な強化学習より優れています。
本稿では, サブトラジェクトリに対するVLMフィードバックを活用する手法であるサブトラジェクトリフィルタリング法を提案する。
本研究は,玩具制御領域の評価を通じて,初期的証拠を提供する予備的手法である。
空港のペインを楽しんでください。
関連論文リスト
- Online Preference-based Reinforcement Learning with Self-augmented Feedback from Large Language Model [17.4036850872656]
嗜好に基づく強化学習(PbRL)は、人間の嗜好に基づいて報酬を学習することで、巧妙な報酬工学を避けるための強力なパラダイムを提供する。
本稿では,オンラインPbRLの特権情報に依存しないRL自己拡張大言語モデルフィードバック(RL-SaLLM-F)手法を提案する。
論文 参考訳(メタデータ) (2024-12-22T06:15:25Z) - An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-02T14:16:23Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。