論文の概要: TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2312.06630v2
- Date: Tue, 12 Dec 2023 05:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:33:27.449713
- Title: TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance
Segmentation
- Title(参考訳): tmt-vis:ビデオインスタンスセグメンテーションのための分類学アウェアマルチデータセット合同トレーニング
- Authors: Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang
Zhao
- Abstract要約: 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを高めることができるが、VISのデータセットは労働コストが高いためスケールアップが難しい。
私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。
我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気で挑戦的なベンチマークで、広範囲に評価を行っている。
本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
- 参考スコア(独自算出の注目度): 51.199543962233506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training on large-scale datasets can boost the performance of video instance
segmentation while the annotated datasets for VIS are hard to scale up due to
the high labor cost. What we possess are numerous isolated filed-specific
datasets, thus, it is appealing to jointly train models across the aggregation
of datasets to enhance data volume and diversity. However, due to the
heterogeneity in category space, as mask precision increases with the data
volume, simply utilizing multiple datasets will dilute the attention of models
on different taxonomies. Thus, increasing the data scale and enriching taxonomy
space while improving classification precision is important. In this work, we
analyze that providing extra taxonomy information can help models concentrate
on specific taxonomy, and propose our model named Taxonomy-aware Multi-dataset
Joint Training for Video Instance Segmentation (TMT-VIS) to address this vital
challenge. Specifically, we design a two-stage taxonomy aggregation module that
first compiles taxonomy information from input videos and then aggregates these
taxonomy priors into instance queries before the transformer decoder. We
conduct extensive experimental evaluations on four popular and challenging
benchmarks, including YouTube-VIS 2019, YouTube-VIS 2021, OVIS, and UVO. Our
model shows significant improvement over the baseline solutions, and sets new
state-of-the-art records on all benchmarks. These appealing and encouraging
results demonstrate the effectiveness and generality of our approach. The code
is available at
https://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)
- Abstract(参考訳): 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを向上すると同時に、VIS用の注釈付きデータセットは、高い労働コストのためにスケールアップが難しい。
当社が保有しているデータセットは,独立した多数のデータセットであり,データボリュームと多様性を高めるために,データセットの集約全体にわたってモデルを共同でトレーニングすることが望ましいのです。
しかし、カテゴリ空間の多様性のため、データボリュームによってマスク精度が増加するため、複数のデータセットを単純に利用すれば、異なる分類に関するモデルの注意を薄めることができる。
したがって,分類精度を高めつつ,データスケールの増大と分類空間の充実が重要である。
本研究では,追加の分類情報を提供することが,モデルが特定の分類に集中するのに役立つことを分析し,ビデオインスタンスセグメンテーション(tmt-vis)のための分類アウェアマルチデータセット合同トレーニングモデルを提案する。
具体的には、2段階の分類集計モジュールを設計し、まず最初に入力ビデオから分類情報をコンパイルし、これらの分類先行情報を変換器デコーダの前にインスタンスクエリに集約する。
我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気かつ挑戦的なベンチマークに対して、広範な実験的評価を行う。
本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
これらの魅力的で奨励的な結果は、我々のアプローチの有効性と一般化を示している。
コードはhttps://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)で入手できる。
関連論文リスト
- SSE: Multimodal Semantic Data Selection and Enrichment for Industrial-scale Data Assimilation [29.454948190814765]
近年、人工知能のために収集されたデータは、管理不能な量に成長している。
セマンティックに多様で重要なデータセット部分を選択するためのフレームワークを提案する。
巨大なラベルのないデータプールから意味のある新しいデータを発見することで、さらにセマンティックに強化します。
論文 参考訳(メタデータ) (2024-09-20T19:17:52Z) - Automated Label Unification for Multi-Dataset Semantic Segmentation with GNNs [48.406728896785296]
本稿では,グラフニューラルネットワークを用いて,複数のデータセットにまたがる統一ラベル空間を自動構築する手法を提案する。
従来の手法と異なり,本手法は手動の注釈や分類の調整を必要とせず,シームレスな訓練を容易にする。
論文 参考訳(メタデータ) (2024-07-15T08:42:10Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - LMSeg: Language-guided Multi-dataset Segmentation [15.624630978858324]
我々はLMSegと呼ばれる言語誘導型マルチデータセットフレームワークを提案し、セマンティックとパンプトのセグメンテーションの両方をサポートしている。
LMSegは、柔軟性のない1ホットラベルを使用する代わりに、カテゴリ名をテキスト埋め込みスペースに統一された分類としてマッピングする。
実験により,本手法は4つのセグメンテーションデータセットと3つのパノプティックセグメンテーションデータセットに対して有意な改善が得られた。
論文 参考訳(メタデータ) (2023-02-27T03:43:03Z) - Automatic universal taxonomies for multi-domain semantic segmentation [1.4364491422470593]
複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。
確立されたデータセットには 互いに互換性のないラベルがあります 野生の原理的推論を妨害します
我々は、反復的データセット統合による普遍的な構築によってこの問題に対処する。
論文 参考訳(メタデータ) (2022-07-18T08:53:17Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。