論文の概要: Augment Before Copy-Paste: Data and Memory Efficiency-Oriented Instance Segmentation Framework for Sport-scenes
- arxiv url: http://arxiv.org/abs/2403.11572v1
- Date: Mon, 18 Mar 2024 08:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:07:12.733832
- Title: Augment Before Copy-Paste: Data and Memory Efficiency-Oriented Instance Segmentation Framework for Sport-scenes
- Title(参考訳): コピーペースト前の拡張:スポーツシーンのためのデータとメモリ効率指向インスタンスセグメンテーションフレームワーク
- Authors: Chih-Chung Hsu, Chia-Ming Lee, Ming-Shyen Wu,
- Abstract要約: Visual Inductive Priors Challenge (VIPriors2023)では、参加者はバスケットボールコートで個人を正確に特定できるモデルを訓練しなければならない。
本稿では,視覚的インダクティブな前流伝搬に基づくメモリ効率インスタンスフレームワークを提案する。
実験では、限られたデータとメモリの制約の下でも、我々のモデルを有望な性能を示す。
- 参考スコア(独自算出の注目度): 7.765333471208582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance segmentation is a fundamental task in computer vision with broad applications across various industries. In recent years, with the proliferation of deep learning and artificial intelligence applications, how to train effective models with limited data has become a pressing issue for both academia and industry. In the Visual Inductive Priors challenge (VIPriors2023), participants must train a model capable of precisely locating individuals on a basketball court, all while working with limited data and without the use of transfer learning or pre-trained models. We propose Memory effIciency inStance Segmentation framework based on visual inductive prior flow propagation that effectively incorporates inherent prior information from the dataset into both the data preprocessing and data augmentation stages, as well as the inference phase. Our team (ACVLAB) experiments demonstrate that our model achieves promising performance (0.509 AP@0.50:0.95) even under limited data and memory constraints.
- Abstract(参考訳): インスタンスセグメンテーションはコンピュータビジョンにおける基本的なタスクであり、様々な産業で広く応用されている。
近年、ディープラーニングや人工知能のアプリケーションの普及に伴い、限られたデータで効果的なモデルをトレーニングする方法は、学術と産業の両方にとって重要な問題となっている。
Visual Inductive Priors Challenge (VIPriors2023)では、参加者はバスケットボールコートで個人を正確に特定できるモデルをトレーニングしなければならない。
本稿では、データ前処理とデータ拡張段階の両方にデータセットから固有の事前情報を効果的に組み込んだ視覚的インダクティブな事前フロー伝搬に基づくメモリ効率インスタンスセグメンテーションフレームワークを提案する。
我々のチーム(ACVLAB)実験は、限られたデータやメモリ制約の下でも、このモデルが有望な性能(0.509 AP@0.50:0.95)を達成することを示した。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Rethinking Overlooked Aspects in Vision-Language Models [32.525916879333145]
近年の視覚言語モデル(LVLM)の進歩は顕著である。
最近の研究は、モデルの性能を向上させるために、事前学習と指導のチューニングデータの導入に重点を置いている。
本稿では,事前学習におけるデータ効率の非無視的な側面と,トレーニングデータセットの選択過程について述べる。
論文 参考訳(メタデータ) (2024-05-20T07:53:41Z) - MISS: Memory-efficient Instance Segmentation Framework By Visual Inductive Priors Flow Propagation [8.727456619750983]
トレーニングデータセットへの視覚的事前の戦略的統合は、テストデータ分布との整合性を高める潜在的なソリューションとして現れます。
MISSの有効性を実証的に評価し、限られたデータ可用性とメモリ制約を特徴とするシナリオにおいて、賞賛可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-18T08:52:23Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。