論文の概要: Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.05172v1
- Date: Thu, 04 Dec 2025 16:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.772055
- Title: Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning
- Title(参考訳): Semore:視覚強化学習のためのVLM誘導強化セマンティックモーション表現
- Authors: Wentao Wang, Chunyang Liu, Kehua Sheng, Bo Zhang, Yan Wang,
- Abstract要約: 視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
- 参考スコア(独自算出の注目度): 11.901989132359676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing exploration of Large Language Models (LLM) and Vision-Language Models (VLM) has opened avenues for enhancing the effectiveness of reinforcement learning (RL). However, existing LLM-based RL methods often focus on the guidance of control policy and encounter the challenge of limited representations of the backbone networks. To tackle this problem, we introduce Enhanced Semantic Motion Representations (Semore), a new VLM-based framework for visual RL, which can simultaneously extract semantic and motion representations through a dual-path backbone from the RGB flows. Semore utilizes VLM with common-sense knowledge to retrieve key information from observations, while using the pre-trained clip to achieve the text-image alignment, thereby embedding the ground-truth representations into the backbone. To efficiently fuse semantic and motion representations for decision-making, our method adopts a separately supervised approach to simultaneously guide the extraction of semantics and motion, while allowing them to interact spontaneously. Extensive experiments demonstrate that, under the guidance of VLM at the feature level, our method exhibits efficient and adaptive ability compared to state-of-art methods. All codes are released.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) の探索は、強化学習 (RL) の有効性を高めるための道を開いた。
しかし、既存のLLMベースのRL手法は、制御ポリシーのガイダンスに重点を置いており、バックボーンネットワークの限られた表現の課題に直面している。
この問題を解決するために,視覚的RLのための新しいVLMベースのフレームワークであるEnhanced Semantic Motion Representations (Semore)を導入する。
Semore は VLM の共通知識を利用して観測から重要な情報を抽出し、事前訓練されたクリップを使用してテキスト画像アライメントを実現し、その結果、接地真実表現をバックボーンに埋め込む。
意思決定のための意味表現と動作表現を効率的に融合させるため,本手法では,意味表現と動作の抽出を同時に指導すると同時に,自発的に対話することを可能にするために,個別に指導されたアプローチを採用する。
広汎な実験により,VLMの特徴レベルでの指導の下で,本手法は最先端の手法と比較して,効率的かつ適応的な能力を示すことが示された。
すべてのコードはリリースされている。
関連論文リスト
- Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。
LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。
本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:28:29Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - BMIP: Bi-directional Modality Interaction Prompt Learning for VLM [18.196058385987506]
本稿では,$underlinetextbfBi-directional underlinetextbfModality underlinetextbfInteraction underlinetextbfPrompt (BMIP)$という新しいプロンプト学習手法を提案する。
BMIPは、注目層の情報を学習し、単純な情報集約法と比較して、訓練性およびモーダル間整合性を高めることにより、バイモーダル情報を重み付けする。
論文 参考訳(メタデータ) (2025-01-14T00:59:55Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。