論文の概要: Adapting Pretrained ViTs with Convolution Injector for Visuo-Motor Control
- arxiv url: http://arxiv.org/abs/2406.06072v1
- Date: Mon, 10 Jun 2024 07:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:46:46.872533
- Title: Adapting Pretrained ViTs with Convolution Injector for Visuo-Motor Control
- Title(参考訳): Visuo-Motor 制御のためのコンボリューションインジェクタによる事前学習型 ViT の適応
- Authors: Dongyoon Hwang, Byungkun Lee, Hojoon Lee, Hyunseung Kim, Jaegul Choo,
- Abstract要約: 本研究では, 局所性に富んだ畳み込みと等分散バイアスを事前学習したViTに注入し, ビジュオモータ制御に有効適応するアドオンモジュールであるConvolutionを紹介する。
我々はCoInを3つの異なるドメイン内の12種類の制御タスクに対して、CLIP、MVP、VC-1の3つの異なる種類の事前訓練されたViTを用いて評価した。
- 参考スコア(独自算出の注目度): 30.0426907822268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT), when paired with large-scale pretraining, have shown remarkable performance across various computer vision tasks, primarily due to their weak inductive bias. However, while such weak inductive bias aids in pretraining scalability, this may hinder the effective adaptation of ViTs for visuo-motor control tasks as a result of the absence of control-centric inductive biases. Such absent inductive biases include spatial locality and translation equivariance bias which convolutions naturally offer. To this end, we introduce Convolution Injector (CoIn), an add-on module that injects convolutions which are rich in locality and equivariance biases into a pretrained ViT for effective adaptation in visuo-motor control. We evaluate CoIn with three distinct types of pretrained ViTs (CLIP, MVP, VC-1) across 12 varied control tasks within three separate domains (Adroit, MetaWorld, DMC), and demonstrate that CoIn consistently enhances control task performance across all experimented environments and models, validating the effectiveness of providing pretrained ViTs with control-centric biases.
- Abstract(参考訳): 視覚変換器(ViT)は、大規模な事前学習と組み合わせると、主に誘導バイアスの弱いため、様々なコンピュータビジョンタスクにおいて顕著な性能を示す。
しかし、このような弱い誘導バイアスは事前学習のスケーラビリティを助長するが、制御中心の誘導バイアスが欠如していることから、ビジュオモータ制御タスクに対するViTsの効果的な適応を妨げる可能性がある。
このような帰納バイアスの欠如には、空間的局所性や、畳み込みが自然にもたらす変換同値バイアスが含まれる。
そこで本研究では, 局所性や等分散バイアスに富んだ畳み込みをプリトレーニングしたViTに注入し, ビジュオモータ制御に有効適応するアドオンモジュールであるConvolution Injector (CoIn)を紹介する。
我々は、CoInを3つの異なるドメイン(Adroit、MetaWorld、DMC)内の12の異なる制御タスク(CLIP、MVP、VC-1)で評価し、CoInは、実験されたすべての環境やモデルにおける制御タスクのパフォーマンスを一貫して向上させ、制御中心のバイアスを伴う事前学習されたViTを提供することの有効性を検証した。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Towards Human-Like Driving: Active Inference in Autonomous Vehicle Control [0.5437298646956507]
本稿では,アクティブ推論の適用を通じて,自律走行車(AV)制御への新たなアプローチを提案する。
アクティブ推論(英: Active Inference)は、脳を予測機械として概念化する神経科学に由来する理論である。
提案手法は,深層学習と能動推論を統合してAVの側方制御を制御し,シミュレーション都市環境下で車線追従操作を行う。
論文 参考訳(メタデータ) (2024-07-10T14:08:27Z) - Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers [0.7496510641958004]
我々はSwin Transformerを拡張して、異なる医用画像モダリティから学習し、下流のパフォーマンスを向上させる。
SwinFUSEと呼ばれるこのモデルは,事前学習中にCT(Computed Tomography)とMRI(Magical Resonance Images)の両方から学習し,補完的な特徴表現をもたらす。
論文 参考訳(メタデータ) (2024-05-21T13:28:32Z) - Effective Controllable Bias Mitigation for Classification and Retrieval
using Gate Adapters [15.04666532311815]
調整可能な感度パラメータを持つ新しいモジュラーゲーティング機構である制御可能なゲートアダプタ(ConGater)を導入する。
本研究では,(1)正当性リストの正則化による検索結果の偏りの低減と,(2)正当性リストの正則化による検索結果の偏りの低減,という3つの分類課題に対して,逆偏り実験を3つの異なるモデルで実施することで,ConGaterのパフォーマンスを実証する。
本研究の結果から, 完全脱バイアス型 ConGater は, 最近の強靭性ベースラインの2倍以上のタスク性能を維持しつつ, 同等の公平性を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-29T09:15:50Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Convolutional Bypasses Are Better Vision Transformer Adapters [14.993203705812654]
視覚変換器(ViT)のサイズが指数関数的に大きくなるにつれて、より重い記憶オーバーヘッドの観点から完全な微調整が禁止される。
近年の研究では、トレーニング済みのViTに軽量適応モジュールを挿入し、トレーニング済みの重みが凍結されている間にのみそれらのモジュールを微調整する試みが行われている。
本稿では,ViT の適応モジュールとして Convolutional Bypasses (Convpass) を構築することを提案する。
論文 参考訳(メタデータ) (2022-07-14T16:32:28Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。