論文の概要: Recasting Generic Pretrained Vision Transformers As Object-Centric Scene Encoders For Manipulation Policies
- arxiv url: http://arxiv.org/abs/2405.15916v1
- Date: Fri, 24 May 2024 20:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:10:19.782076
- Title: Recasting Generic Pretrained Vision Transformers As Object-Centric Scene Encoders For Manipulation Policies
- Title(参考訳): 操作ポリシーのためのオブジェクト中心シーンエンコーダとしてのジェネリック事前学習型視覚変換器のリキャスト
- Authors: Jianing Qian, Anastasios Panagopoulos, Dinesh Jayaraman,
- Abstract要約: SOFTは、事前訓練されたビジョントランス (PVT) モデルを取り巻くラッパーである。
最終層のアクティベーションのみから表現を構成するのではなく、SOFTはPVTの注意からオブジェクトのようなエンティティを識別し、配置する。
それぞれのケースにおいて、シミュレーションおよび実環境におけるタスク操作のための標準PVT表現を、SOFTで訓練したポリシーが超越していることを実証する。
- 参考スコア(独自算出の注目度): 23.378072284295005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic re-usable pre-trained image representation encoders have become a standard component of methods for many computer vision tasks. As visual representations for robots however, their utility has been limited, leading to a recent wave of efforts to pre-train robotics-specific image encoders that are better suited to robotic tasks than their generic counterparts. We propose Scene Objects From Transformers, abbreviated as SOFT, a wrapper around pre-trained vision transformer (PVT) models that bridges this gap without any further training. Rather than construct representations out of only the final layer activations, SOFT individuates and locates object-like entities from PVT attentions, and describes them with PVT activations, producing an object-centric embedding. Across standard choices of generic pre-trained vision transformers PVT, we demonstrate in each case that policies trained on SOFT(PVT) far outstrip standard PVT representations for manipulation tasks in simulated and real settings, approaching the state-of-the-art robotics-aware representations. Code, appendix and videos: https://sites.google.com/view/robot-soft/
- Abstract(参考訳): 汎用的な再使用可能な事前学習画像表現エンコーダは、多くのコンピュータビジョンタスクのためのメソッドの標準コンポーネントとなっている。
しかし、ロボットの視覚的表現は限られており、ロボット固有のイメージエンコーダを事前訓練する動きが、一般的なロボットよりもロボットに向いている。
我々は、事前訓練された視覚変換器(PVT)モデルを取り巻くラッパーであるSOFT(Scene Objects From Transformers)を提案する。
最終層活性化のみから表現を構成するのではなく、SOFTはPVTの注意からオブジェクトのようなエンティティを識別し、PVTのアクティベーションで記述し、オブジェクト中心の埋め込みを生成する。
汎用的な事前学習型ビジョントランスフォーマーPVTの標準選択は、それぞれのケースにおいて、シミュレーションおよび実環境におけるタスク操作のためのSOFT(PVT)の標準PVT表現に基づいて訓練されたポリシーが、最先端のロボティクス対応の表現に近づいたことを実証する。
コード、付録、ビデオ:https://sites.google.com/view/robot-soft/
関連論文リスト
- Composing Pre-Trained Object-Centric Representations for Robotics From "What" and "Where" Foundation Models [27.381128884213812]
ロボット制御のための事前学習されたオブジェクト中心表現を構築するための新しいフレームワークを提案する。
トレーニング済みモデルからのセグメンテーションを使用して、タイムステップ、シーン内のさまざまなエンティティを安定して特定し、"どこで"情報をキャプチャします。
各種のシミュレーションおよび実ロボットタスクにおいて,POCRで訓練されたロボットマニピュレータの模倣ポリシーにより,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-04-20T21:51:15Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。