論文の概要: MultiSiam: Self-supervised Multi-instance Siamese Representation
Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2108.12178v1
- Date: Fri, 27 Aug 2021 08:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:13:25.635314
- Title: MultiSiam: Self-supervised Multi-instance Siamese Representation
Learning for Autonomous Driving
- Title(参考訳): MultiSiam: 自律運転のための自己教師型マルチインスタンス・シームズ表現学習
- Authors: Kai Chen, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung
- Abstract要約: 自己教師型学習は、モデルパフォーマンスを改善するための有望な方法かもしれない。
既存のSSLメソッドは通常、単一中心オブジェクト保証に依存している。
一般化能力の向上と最先端転送性能を実現するため,マルチインスタンス・シームズ・ネットワーク(MultiSiam)を提案する。
- 参考スコア(独自算出の注目度): 45.23708547617418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving has attracted much attention over the years but turns out
to be harder than expected, probably due to the difficulty of labeled data
collection for model training. Self-supervised learning (SSL), which leverages
unlabeled data only for representation learning, might be a promising way to
improve model performance. Existing SSL methods, however, usually rely on the
single-centric-object guarantee, which may not be applicable for multi-instance
datasets such as street scenes. To alleviate this limitation, we raise two
issues to solve: (1) how to define positive samples for cross-view consistency
and (2) how to measure similarity in multi-instance circumstances. We first
adopt an IoU threshold during random cropping to transfer global-inconsistency
to local-consistency. Then, we propose two feature alignment methods to enable
2D feature maps for multi-instance similarity measurement. Additionally, we
adopt intra-image clustering with self-attention for further mining intra-image
similarity and translation-invariance. Experiments show that, when pre-trained
on Waymo dataset, our method called Multi-instance Siamese Network (MultiSiam)
remarkably improves generalization ability and achieves state-of-the-art
transfer performance on autonomous driving benchmarks, including Cityscapes and
BDD100K, while existing SSL counterparts like MoCo, MoCo-v2, and BYOL show
significant performance drop. By pre-training on SODA10M, a large-scale
autonomous driving dataset, MultiSiam exceeds the ImageNet pre-trained MoCo-v2,
demonstrating the potential of domain-specific pre-training. Code will be
available at https://github.com/KaiChen1998/MultiSiam.
- Abstract(参考訳): 自動運転は長年にわたって注目を集めてきたが、おそらくモデルトレーニングのためのラベル付きデータ収集が難しいため、予想以上に難しいことが判明した。
表現学習のみにラベルのないデータを活用する自己教師付き学習(ssl)は、モデルパフォーマンスを改善する有望な方法かもしれない。
しかし、既存のSSLメソッドは通常、ストリートシーンのようなマルチインスタンスデータセットには適用できない単一中心オブジェクト保証に依存している。
この制限を緩和するために,(1)クロスビュー一貫性のための正のサンプルの定義方法,(2)マルチインスタンス環境における類似度の測定方法の2つの課題を提起する。
我々はまず、ランダムな収穫中にIoU閾値を採用し、グローバルな一貫性を局所的な一貫性に伝達する。
次に,マルチインテンス類似度測定のための2次元特徴マップを実現する2つの特徴アライメント手法を提案する。
さらに,自己注意型画像内クラスタリングを採用し,画像内類似性や翻訳不変性をさらに推し進める。
Waymoデータセットで事前トレーニングを行うと、MultiSiam(MultiSiam)と呼ばれる手法が一般化能力を大幅に向上し、CityscapesやBDD100Kを含む自動運転ベンチマーク上で最先端の転送性能を達成する一方で、既存のSSL対応であるMoCo、MoCo-v2、BYOLは大幅なパフォーマンス低下を示します。
大規模な自動運転データセットであるSODA10Mの事前トレーニングにより、MultiSiamはImageNetの事前トレーニングされたMoCo-v2を超え、ドメイン固有の事前トレーニングの可能性を示している。
コードはhttps://github.com/kaichen1998/multisiamで入手できる。
関連論文リスト
- FedUV: Uniformity and Variance for Heterogeneous Federated Learning [5.9330433627374815]
フェデレーション学習は、広く分散されたデータでニューラルネットワークをトレーニングするための有望なフレームワークである。
最近の研究によると、ネットワークの最終層が局所バイアスの傾向が最も大きいためである。
凍結重量が一定の特異値をもたらすという観測によって動機付けられた重みにSVDを適用して分類器の訓練力学を考察する。
論文 参考訳(メタデータ) (2024-02-27T15:53:15Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Co-training for Deep Object Detection: Comparing Single-modal and
Multi-modal Approaches [0.0]
自己ラベル型オブジェクトバウンディングボックス(BB)取得のための半教師付き学習(SSL)手法であるco-trainingの利用に重点を置いています。
特に、画像の2つの異なるビュー、すなわち、外観(RGB)と推定深さ(D)に依存して、マルチモーダルコトレーニングの有用性を評価する。
その結果、標準SSL設定(ドメインシフトなし、人間ラベルデータが少ない)と仮想から現実のドメインシフト(仮想世界ラベルデータが多い、人間ラベルデータなし)では、マルチモーダル共訓練が単一モーダルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-04-23T14:13:59Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。