論文の概要: Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches
- arxiv url: http://arxiv.org/abs/2509.19924v1
- Date: Wed, 24 Sep 2025 09:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.754224
- Title: Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches
- Title(参考訳): 基礎モデルによる探索:能力、限界、ハイブリッドアプローチ
- Authors: Remo Sasso, Michelangelo Conserva, Dominik Jeurissen, Paulo Rauber,
- Abstract要約: VLM指導は早期サンプル効率を著しく向上させることができることを示す。
本結果は,エンド・ツー・エンド・エンド・コントロールではなく,基礎モデルを用いて探索をガイドする可能性や制約を明らかにするものである。
- 参考スコア(独自算出の注目度): 2.9165586612027234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration in reinforcement learning (RL) remains challenging, particularly in sparse-reward settings. While foundation models possess strong semantic priors, their capabilities as zero-shot exploration agents in classic RL benchmarks are not well understood. We benchmark LLMs and VLMs on multi-armed bandits, Gridworlds, and sparse-reward Atari to test zero-shot exploration. Our investigation reveals a key limitation: while VLMs can infer high-level objectives from visual input, they consistently fail at precise low-level control: the "knowing-doing gap". To analyze a potential bridge for this gap, we investigate a simple on-policy hybrid framework in a controlled, best-case scenario. Our results in this idealized setting show that VLM guidance can significantly improve early-stage sample efficiency, providing a clear analysis of the potential and constraints of using foundation models to guide exploration rather than for end-to-end control.
- Abstract(参考訳): 強化学習(RL)の探索は、特にスパース・リワード・セッティングにおいて依然として困難である。
基礎モデルは強いセマンティック先行性を持っているが、古典的なRLベンチマークにおけるゼロショット探索エージェントとしての能力はよく理解されていない。
我々は,マルチアームのバンディット,グリッドワールド,スパースリワードアタリでLDMとVLMのベンチマークを行い,ゼロショット探索試験を行った。
VLMは視覚入力から高いレベルの目標を推測できるが、常に正確な低レベルの制御で失敗する。
このギャップの潜在的な橋梁を解析するために、制御されたベストケースシナリオにおけるシンプルなオン・ポリティクス・ハイブリッド・フレームワークについて検討する。
その結果, VLM指導は早期サンプル効率を大幅に向上させることができ, エンド・ツー・エンド制御ではなく, 基礎モデルを用いて探索をガイドする可能性や制約を明確化することができることがわかった。
関連論文リスト
- Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [54.70676039314542]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は、最先端のPTQ手法を実装し、複数のタスクタイプとモデル変種を包括的に評価する。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization [45.799380822683034]
大規模言語モデル(LLM)のためのRLベースファインタニング技術の進歩を目的とした広範な研究を提案する。
一般的に採用されているLSMには,特定の脆弱性を過度に予測する傾向があり,他の脆弱性を検出できない,といった,重要な制限が強調される。
この課題に対処するために、構造化されたルールベースの報酬を通してLLMの振る舞いを導くための最近の政策段階的手法であるグループ相対政策最適化(GRPO)について検討する。
論文 参考訳(メタデータ) (2025-07-03T11:52:45Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。