論文の概要: Vision-Language Models Unlock Task-Centric Latent Actions
- arxiv url: http://arxiv.org/abs/2601.22714v1
- Date: Fri, 30 Jan 2026 08:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.329201
- Title: Vision-Language Models Unlock Task-Centric Latent Actions
- Title(参考訳): タスク中心の潜在動作をアンロックする視覚言語モデル
- Authors: Alexander Nikulin, Ilya Zisman, Albina Klepach, Denis Tarasov, Alexander Derevyagin, Andrei Polubarov, Lyubaykin Nikita, Vladislav Kurenkov,
- Abstract要約: 本稿では、視覚言語モデル(VLM)の常識推論能力を利用して、迅速な表現を実現することを提案する。
そこで本研究では,VLMに障害を無視するよう求めれば,遅延動作の質が大幅に向上し,解離メタワールドにおける下流の成功率が最大6倍に向上することを示す。
- 参考スコア(独自算出の注目度): 75.53481518882275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Action Models (LAMs) have rapidly gained traction as an important component in the pre-training pipelines of leading Vision-Language-Action models. However, they fail when observations contain action-correlated distractors, often encoding noise instead of meaningful latent actions. Humans, on the other hand, can effortlessly distinguish task-relevant motions from irrelevant details in any video given only a brief task description. In this work, we propose to utilize the common-sense reasoning abilities of Vision-Language Models (VLMs) to provide promptable representations, effectively separating controllable changes from the noise in unsupervised way. We use these representations as targets during LAM training and benchmark a wide variety of popular VLMs, revealing substantial variation in the quality of promptable representations as well as their robustness to different prompts and hyperparameters. Interestingly, we find that more recent VLMs may perform worse than older ones. Finally, we show that simply asking VLMs to ignore distractors can substantially improve latent action quality, yielding up to a six-fold increase in downstream success rates on Distracting MetaWorld.
- Abstract(参考訳): ラテント・アクション・モデル(LAM)は、主要なビジョン・ランゲージ・アクション・モデルの事前学習パイプラインにおいて、急速に牽引力を高めている。
しかし、観測結果に行動関連障害が含まれており、しばしば有意義な潜伏行動ではなくノイズを符号化する場合に失敗する。
一方、人間は、簡単なタスク記述のみを与えられたビデオにおいて、タスク関連の動きと無関係な詳細とを、力ずくで区別することができる。
本研究では,視覚言語モデル (VLM) の共通感覚推論能力を利用して,制御可能な変化を教師なしの方法で効果的に分離する手法を提案する。
LAMトレーニング中にこれらの表現をターゲットとして使用し、様々な人気のあるVLMをベンチマークし、プロンプト可能な表現の品質と、異なるプロンプトやハイパーパラメータに対するロバスト性を明らかにした。
興味深いことに、近年のVLMは、古いVLMよりもパフォーマンスが悪くなっている。
最後に,VLMに障害を無視するように要求するだけで,遅延動作の質が大幅に向上し,解離メタワールドにおける下流の成功率が最大6倍に向上することを示す。
関連論文リスト
- DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models [25.91822750707556]
VLA(Vision-Language Action)モデルは、ロボット操作において顕著な進歩を見せている。
VLAモデルはタスク関連領域のイメージトークンに過度に参加する可能性がある。
この振る舞いは、各ステップにおける望ましいアクショントークンの生成からモデルを邪魔し、タスクの成功率に影響を与える可能性がある。
論文 参考訳(メタデータ) (2026-01-22T16:02:56Z) - WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。
また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文 参考訳(メタデータ) (2025-12-02T09:02:20Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought [41.72701516732208]
大規模生成言語と視覚言語モデル(LLMとVLM)は、数ショットの学習では優れているが、高品質な実演を必要とする。
In-Context Abstraction Learning (ICAL) を提案し、VLMエージェントが最適な軌道を高品質な訓練データに変換することを可能にする。
論文 参考訳(メタデータ) (2024-06-20T17:45:02Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。