論文の概要: Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations
- arxiv url: http://arxiv.org/abs/2509.11417v1
- Date: Sun, 14 Sep 2025 20:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.075343
- Title: Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations
- Title(参考訳): 事前制約表現の保存による視覚言語行動モデルにおける一般化の促進
- Authors: Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li,
- Abstract要約: 本稿では,ロボット操作に適応しながら,事前学習した特徴をよりよく保存するフレームワークを提案する。
提案手法では, (i) 事前学習された特徴を保持するために, 凍結したビジョンを持つデュアルエンコーダ設計と, (ii) モデルの事前学習領域に整合した文字列に連続的なアクションを投入する文字列ベースのアクショントークン化器, (iii) ロボットのデモンストレーションと,空間的推論とアプライアンスを強調する視覚言語データセットを組み合わせた協調学習戦略の3つのコンポーネントを導入している。
- 参考スコア(独自算出の注目度): 26.678553477485362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models finetuned from vision-language models (VLMs) hold the promise of leveraging rich pretrained representations to build generalist robots across diverse tasks and environments. However, direct fine-tuning on robot data often disrupts these representations and limits generalization. We present a framework that better preserves pretrained features while adapting them for robot manipulation. Our approach introduces three components: (i) a dual-encoder design with one frozen vision encoder to retain pretrained features and another trainable for task adaptation, (ii) a string-based action tokenizer that casts continuous actions into character sequences aligned with the model's pretraining domain, and (iii) a co-training strategy that combines robot demonstrations with vision-language datasets emphasizing spatial reasoning and affordances. Evaluations in simulation and on real robots show that our method improves robustness to visual perturbations, generalization to novel instructions and environments, and overall task success compared to baselines.
- Abstract(参考訳): 視覚言語モデル(VLA)は、視覚言語モデル(VLM)から微調整されたモデルであり、様々なタスクや環境にまたがる汎用ロボットを構築するために、豊富な事前訓練された表現を活用するという約束を持っている。
しかし、ロボットデータを直接微調整することで、これらの表現が破壊され、一般化が制限されることが多い。
本稿では,ロボット操作に適応しながら,事前学習した特徴をよりよく保存するフレームワークを提案する。
このアプローチでは3つのコンポーネントを導入しています。
(i)凍結した視覚エンコーダを1つ備えたデュアルエンコーダの設計で、予め訓練された特徴とタスク適応のための訓練が可能なもの
(ii) 連続的な動作をモデルの事前訓練ドメインに整合した文字列にキャストする文字列ベースのアクショントークン
三 ロボットのデモンストレーションと空間推論と余剰性を強調した視覚言語データセットを併用した協調学習戦略。
シミュレーションおよび実ロボットによる評価から,本手法は視覚摂動に対する堅牢性,新しい指示や環境への一般化,ベースラインよりも全体的なタスク成功を向上することが示された。
関連論文リスト
- RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。
シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-04-02T19:02:08Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。