論文の概要: Emergent World Representations in OpenVLA
- arxiv url: http://arxiv.org/abs/2509.24559v1
- Date: Mon, 29 Sep 2025 10:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.916074
- Title: Emergent World Representations in OpenVLA
- Title(参考訳): OpenVLAにおける創発的世界表現
- Authors: Marco Molinari, Leonardo Nevali, Saharsha Navani, Omar G. Younis,
- Abstract要約: 本稿では,OpenVLAが状態遷移の潜在知識を含むかどうかを探索するために,状態表現への埋め込み演算を用いた実験手法を提案する。
ベースラインを超える状態遷移の統計的に有意な予測能力は,OpenVLAが内部世界モデルを符号化していることを示す。
我々は,OpenVLAの早期チェックポイントの予測能力について検討し,トレーニングが進むにつれて世界モデルが出現することを示す。
- 参考スコア(独自算出の注目度): 0.7129365616273323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Action models (VLAs) trained with policy-based reinforcement learning (RL) encode complex behaviors without explicitly modeling environmental dynamics. However, it remains unclear whether VLAs implicitly learn world models, a hallmark of model-based RL. We propose an experimental methodology using embedding arithmetic on state representations to probe whether OpenVLA, the current state of the art in VLAs, contains latent knowledge of state transitions. Specifically, we measure the difference between embeddings of sequential environment states and test whether this transition vector is recoverable from intermediate model activations. Using linear and non linear probes trained on activations across layers, we find statistically significant predictive ability on state transitions exceeding baselines (embeddings), indicating that OpenVLA encodes an internal world model (as opposed to the probes learning the state transitions). We investigate the predictive ability of an earlier checkpoint of OpenVLA, and uncover hints that the world model emerges as training progresses. Finally, we outline a pipeline leveraging Sparse Autoencoders (SAEs) to analyze OpenVLA's world model.
- Abstract(参考訳): 視覚言語行動モデル(VLA)は、環境力学を明示的にモデル化することなく、複雑な振る舞いを符号化するポリシーベースの強化学習(RL)で訓練される。
しかし、VLAが暗黙的に世界モデルを学習するかどうかは不明である。
本稿では,VLAにおける現在の最先端技術であるOpenVLAが,状態遷移の潜在知識を含むかどうかを探索するために,状態表現への埋め込み演算を用いた実験手法を提案する。
具体的には、逐次環境状態の埋め込みの違いを測定し、この遷移ベクトルが中間モデルアクティベーションから回復可能かどうかをテストする。
階層間の活性化を訓練した線形および非線型プローブを用いて、ベースライン(埋め込み)を超える状態遷移の統計的に有意な予測能力を見つけ、OpenVLAが内部世界モデル(状態遷移を学ぶプローブとは対照的に)を符号化していることを示す。
我々は,OpenVLAの早期チェックポイントの予測能力について検討し,トレーニングが進むにつれて世界モデルが出現することを示す。
最後に、スパースオートエンコーダ(SAE)を利用してOpenVLAの世界モデルを分析するパイプラインの概要を示す。
関連論文リスト
- Pure Vision Language Action (VLA) Models: A Comprehensive Survey [16.014856048038272]
ビジョン言語アクション(VLA)モデルの出現は、従来のポリシーベースの制御から一般化されたロボット工学へのパラダイムシフトを表している。
この調査は、明確な分類学と既存の研究の体系的、包括的レビューを提供することを目的として、先進的なVLA手法を探求する。
論文 参考訳(メタデータ) (2025-09-23T13:53:52Z) - Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success [5.617637951327993]
本稿では,軽量強化学習アルゴリズムであるVision-Language Decoupled Actor-Critic (VLDAC)を紹介する。
VLDACは環境レベルのみに価値を学習しながら、PPO更新を動作に適用する。
一度に1つの安価なシミュレータで1つのVLMをVLDACでトレーニングすると、広く一般化するポリシーが生成される。
論文 参考訳(メタデータ) (2025-08-06T10:08:48Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:59:59Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。