論文の概要: Parallel Pre-trained Transformers (PPT) for Synthetic Data-based
Instance Segmentation
- arxiv url: http://arxiv.org/abs/2206.10845v1
- Date: Wed, 22 Jun 2022 05:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:09:13.982789
- Title: Parallel Pre-trained Transformers (PPT) for Synthetic Data-based
Instance Segmentation
- Title(参考訳): 合成データに基づくインスタンス分割のための並列事前学習変換器(PPT)
- Authors: Ming Li, Jie Wu, Jinhang Cai, Jie Qin, Yuxi Ren, Xuefeng Xiao, Min
Zheng, Rui Wang, Xin Pan
- Abstract要約: 合成データに基づくインスタンスタスクを実現するために,並列事前学習トランスフォーマ(PPT)フレームワークを提案する。
Swin-BベースのCBNet V2、SwinLベースのCBNet V2、Swin-LベースのUniformerが並列機能学習に使われている。
CVPR2022 AVA Vision and Autonomy Challengeでは65.155%のmAPでランクインした。
- 参考スコア(独自算出の注目度): 34.10059933228908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Synthetic data-based Instance Segmentation has become an
exceedingly favorable optimization paradigm since it leverages simulation
rendering and physics to generate high-quality image-annotation pairs. In this
paper, we propose a Parallel Pre-trained Transformers (PPT) framework to
accomplish the synthetic data-based Instance Segmentation task. Specifically,
we leverage the off-the-shelf pre-trained vision Transformers to alleviate the
gap between natural and synthetic data, which helps to provide good
generalization in the downstream synthetic data scene with few samples.
Swin-B-based CBNet V2, SwinL-based CBNet V2 and Swin-L-based Uniformer are
employed for parallel feature learning, and the results of these three models
are fused by pixel-level Non-maximum Suppression (NMS) algorithm to obtain more
robust results. The experimental results reveal that PPT ranks first in the
CVPR2022 AVA Accessibility Vision and Autonomy Challenge, with a 65.155% mAP.
- Abstract(参考訳): 近年、シミュレーションレンダリングと物理を利用して高品質な画像アノテーションペアを生成するため、シンセティックデータベースのインスタンスセグメンテーションは、非常に好ましい最適化パラダイムとなっている。
本稿では,合成データに基づくインスタンスセグメンテーションタスクを実現するために,ppt(parallel pre-trained transformers)フレームワークを提案する。
具体的には,人工データと自然データとのギャップを緩和するために,既成の視覚トランスを活用し,サンプル数が少ない下流合成データシーンにおける良好な一般化を実現する。
並列特徴学習にはSwin-BベースのCBNet V2,Swin-LベースのCBNet V2,Swin-LベースのUniformerが使用され,これらの3つのモデルの結果はピクセルレベルの非最大抑圧(NMS)アルゴリズムによって融合され,より堅牢な結果が得られる。
実験の結果、pptは65.155%の地図でcvpr2022 avaアクセシビリティビジョンと自律性チャレンジで1位となった。
関連論文リスト
- Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。
しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文 参考訳(メタデータ) (2024-11-22T08:17:46Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Implementing Neural Network-Based Equalizers in a Coherent Optical
Transmission System Using Field-Programmable Gate Arrays [3.1543509940301946]
我々は、コヒーレント光伝送システムにおける非線形性補償のための、リカレントおよびフィードフォワードニューラルネットワーク(NN)ベースの等化器のオフラインFPGA実現について述べる。
主な結果は、性能比較、アクティベーション関数の実装方法の分析、ハードウェアの複雑さに関するレポートの3つに分けられる。
論文 参考訳(メタデータ) (2022-12-09T07:28:45Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。