論文の概要: VAT: Vision Action Transformer by Unlocking Full Representation of ViT
- arxiv url: http://arxiv.org/abs/2512.06013v1
- Date: Wed, 03 Dec 2025 10:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.149745
- Title: VAT: Vision Action Transformer by Unlocking Full Representation of ViT
- Title(参考訳): VAT: ViT の完全表現をアンロックした視覚行動変換器
- Authors: Wenhao Li, Chengwei Ma, Weixin Mao,
- Abstract要約: 視覚変換器(ViT)は視覚知覚の標準であるが、ほとんどの手法は最終層の機能のみを使用することで貴重な情報を捨てる。
これは不十分な表現を提供し、VAT(Vision Action Transformer)を提案する。
VATは、すべてのトランスフォーマー層に視覚的特徴を持つ特殊なアクショントークンを処理し、認識とアクション生成の深みと進歩的な融合を可能にする。
- 参考スコア(独自算出の注目度): 10.192713461564606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In robot learning, Vision Transformers (ViTs) are standard for visual perception, yet most methods discard valuable information by using only the final layer's features. We argue this provides an insufficient representation and propose the Vision Action Transformer (VAT), a novel architecture that is extended from ViT and unlocks the full feature hierarchy of ViT. VAT processes specialized action tokens with visual features across all transformer layers, enabling a deep and progressive fusion of perception and action generation. On a suite of simulated manipulation tasks, VAT achieves a 98.15\% average success rate across four LIBERO benchmarks, establishing a new state-of-the-art by outperforming prior methods like OpenVLA-OFT. Our work presents not only a powerful model for imitation learning but also demonstrates the critical importance of leveraging the complete ''representation trajectory'' of vision models to advance robotic policy. The GitHub URL for the project code is https://github.com/sellerbubble/VAT.
- Abstract(参考訳): ロボット学習において、視覚変換器(ViT)は視覚知覚の標準であるが、ほとんどの手法は最終層の特徴のみを使用することで貴重な情報を捨てる。
これは、VATから拡張され、VATの完全な特徴階層をアンロックする新しいアーキテクチャであるVAT(Vision Action Transformer)を提案する。
VATは、すべてのトランスフォーマー層に視覚的特徴を持つ特殊なアクショントークンを処理し、認識とアクション生成の深みと進歩的な融合を可能にする。
シミュレーションされた操作タスクのスイートでは、VATは4つのLIBEROベンチマークで平均98.15 %の成功率を達成した。
本研究は、模倣学習の強力なモデルであるだけでなく、視覚モデルの完全な「表現軌道」を活用してロボット政策を前進させることの重要性も示している。
プロジェクトコードのGitHubURLはhttps://github.com/sellerbubble/VATである。
関連論文リスト
- Recasting Generic Pretrained Vision Transformers As Object-Centric Scene Encoders For Manipulation Policies [23.378072284295005]
SOFTは、事前訓練されたビジョントランス (PVT) モデルを取り巻くラッパーである。
最終層のアクティベーションのみから表現を構成するのではなく、SOFTはPVTの注意からオブジェクトのようなエンティティを識別し、配置する。
それぞれのケースにおいて、シミュレーションおよび実環境におけるタスク操作のための標準PVT表現を、SOFTで訓練したポリシーが超越していることを実証する。
論文 参考訳(メタデータ) (2024-05-24T20:20:15Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。