論文の概要: MISS: Memory-efficient Instance Segmentation Framework By Visual Inductive Priors Flow Propagation
- arxiv url: http://arxiv.org/abs/2403.11576v1
- Date: Mon, 18 Mar 2024 08:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:57:28.212409
- Title: MISS: Memory-efficient Instance Segmentation Framework By Visual Inductive Priors Flow Propagation
- Title(参考訳): MISS: Visual Inductive Priors Flow Propagationによるメモリ効率の高いインスタンスセグメンテーションフレームワーク
- Authors: Chih-Chung Hsu, Chia-Ming Lee,
- Abstract要約: トレーニングデータセットへの視覚的事前の戦略的統合は、テストデータ分布との整合性を高める潜在的なソリューションとして現れます。
MISSの有効性を実証的に評価し、限られたデータ可用性とメモリ制約を特徴とするシナリオにおいて、賞賛可能な性能を示す。
- 参考スコア(独自算出の注目度): 8.727456619750983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance segmentation, a cornerstone task in computer vision, has wide-ranging applications in diverse industries. The advent of deep learning and artificial intelligence has underscored the criticality of training effective models, particularly in data-scarce scenarios - a concern that resonates in both academic and industrial circles. A significant impediment in this domain is the resource-intensive nature of procuring high-quality, annotated data for instance segmentation, a hurdle that amplifies the challenge of developing robust models under resource constraints. In this context, the strategic integration of a visual prior into the training dataset emerges as a potential solution to enhance congruity with the testing data distribution, consequently reducing the dependency on computational resources and the need for highly complex models. However, effectively embedding a visual prior into the learning process remains a complex endeavor. Addressing this challenge, we introduce the MISS (Memory-efficient Instance Segmentation System) framework. MISS leverages visual inductive prior flow propagation, integrating intrinsic prior knowledge from the Synergy-basketball dataset at various stages: data preprocessing, augmentation, training, and inference. Our empirical evaluations underscore the efficacy of MISS, demonstrating commendable performance in scenarios characterized by limited data availability and memory constraints.
- Abstract(参考訳): コンピュータビジョンの基盤となるタスクであるインスタンスセグメンテーションは、様々な産業で広く応用されている。
ディープラーニングと人工知能の出現は、特にデータスカースシナリオにおいて、効果的なモデルのトレーニングの重要性を強調している。
この領域における重要な障害は、リソース制約の下で堅牢なモデルを開発するという課題を増幅するハードルである、例えば、例のセグメンテーションのような高品質な注釈付きデータを取得するというリソース集約的な性質である。
この文脈において、トレーニングデータセットへの視覚的事前の戦略的統合は、テストデータ分布との整合性を高め、計算リソースへの依存を減らし、高度に複雑なモデルの必要性を減らし、潜在的な解決策として現れます。
しかし、学習プロセスに視覚的事前を効果的に組み込むことは、依然として複雑な試みである。
この課題に対処するために、MISS(Memory- efficient Instance Segmentation System)フレームワークを紹介します。
MISSは、データ前処理、拡張、トレーニング、推論といった、Synergy-Basketballデータセットから固有の事前知識を統合することで、視覚的インダクティブな事前フロー伝搬を活用する。
MISSの有効性を実証的に評価し、限られたデータ可用性とメモリ制約を特徴とするシナリオにおいて、賞賛可能な性能を示す。
関連論文リスト
- HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - VIRL: Volume-Informed Representation Learning towards Few-shot Manufacturability Estimation [0.0]
本研究は,3次元幾何エンコーダの事前学習のためのボリュームインフォームド表現学習手法であるVIRLを紹介する。
VIRLによって事前訓練されたモデルでは,データ制限による一般化性の向上が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-18T05:30:26Z) - Adaptive Affinity-Based Generalization For MRI Imaging Segmentation Across Resource-Limited Settings [1.5703963908242198]
本稿では,適応親和性に基づく蒸留とカーネルベースの蒸留をシームレスに組み合わせた,新しい関係に基づく知識フレームワークを提案する。
革新的アプローチを検証するために,我々は公開されている複数ソースのMRIデータについて実験を行った。
論文 参考訳(メタデータ) (2024-04-03T13:35:51Z) - Augment Before Copy-Paste: Data and Memory Efficiency-Oriented Instance Segmentation Framework for Sport-scenes [7.765333471208582]
Visual Inductive Priors Challenge (VIPriors2023)では、参加者はバスケットボールコートで個人を正確に特定できるモデルを訓練しなければならない。
本稿では,視覚的インダクティブな前流伝搬に基づくメモリ効率インスタンスフレームワークを提案する。
実験では、限られたデータとメモリの制約の下でも、我々のモデルを有望な性能を示す。
論文 参考訳(メタデータ) (2024-03-18T08:44:40Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。