論文の概要: TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2312.06630v1
- Date: Mon, 11 Dec 2023 18:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:19:25.735292
- Title: TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance
Segmentation
- Title(参考訳): tmt-vis:ビデオインスタンスセグメンテーションのための分類学アウェアマルチデータセット合同トレーニング
- Authors: Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang
Zhao
- Abstract要約: 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを高めることができるが、VISのデータセットは労働コストが高いためスケールアップが難しい。
私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。
我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気で挑戦的なベンチマークで、広範囲に評価を行っている。
本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
- 参考スコア(独自算出の注目度): 51.199543962233506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training on large-scale datasets can boost the performance of video instance
segmentation while the annotated datasets for VIS are hard to scale up due to
the high labor cost. What we possess are numerous isolated filed-specific
datasets, thus, it is appealing to jointly train models across the aggregation
of datasets to enhance data volume and diversity. However, due to the
heterogeneity in category space, as mask precision increases with the data
volume, simply utilizing multiple datasets will dilute the attention of models
on different taxonomies. Thus, increasing the data scale and enriching taxonomy
space while improving classification precision is important. In this work, we
analyze that providing extra taxonomy information can help models concentrate
on specific taxonomy, and propose our model named Taxonomy-aware Multi-dataset
Joint Training for Video Instance Segmentation (TMT-VIS) to address this vital
challenge. Specifically, we design a two-stage taxonomy aggregation module that
first compiles taxonomy information from input videos and then aggregates these
taxonomy priors into instance queries before the transformer decoder. We
conduct extensive experimental evaluations on four popular and challenging
benchmarks, including YouTube-VIS 2019, YouTube-VIS 2021, OVIS, and UVO. Our
model shows significant improvement over the baseline solutions, and sets new
state-of-the-art records on all benchmarks. These appealing and encouraging
results demonstrate the effectiveness and generality of our approach. The code
is available at
https://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)
- Abstract(参考訳): 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを向上すると同時に、VIS用の注釈付きデータセットは、高い労働コストのためにスケールアップが難しい。
当社が保有しているデータセットは,独立した多数のデータセットであり,データボリュームと多様性を高めるために,データセットの集約全体にわたってモデルを共同でトレーニングすることが望ましいのです。
しかし、カテゴリ空間の多様性のため、データボリュームによってマスク精度が増加するため、複数のデータセットを単純に利用すれば、異なる分類に関するモデルの注意を薄めることができる。
したがって,分類精度を高めつつ,データスケールの増大と分類空間の充実が重要である。
本研究では,追加の分類情報を提供することが,モデルが特定の分類に集中するのに役立つことを分析し,ビデオインスタンスセグメンテーション(tmt-vis)のための分類アウェアマルチデータセット合同トレーニングモデルを提案する。
具体的には、2段階の分類集計モジュールを設計し、まず最初に入力ビデオから分類情報をコンパイルし、これらの分類先行情報を変換器デコーダの前にインスタンスクエリに集約する。
我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気かつ挑戦的なベンチマークに対して、広範な実験的評価を行う。
本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
これらの魅力的で奨励的な結果は、我々のアプローチの有効性と一般化を示している。
コードはhttps://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)で入手できる。
関連論文リスト
- DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Scaling Sequential Recommendation Models with Transformers [0.0]
我々は、大規模言語モデルのトレーニングで観察されるスケーリング法則からインスピレーションを得て、シーケンシャルなレコメンデーションのために同様の原則を探求する。
計算最適トレーニングは可能だが、アプリケーション固有の計算性能トレードオフを慎重に分析する必要がある。
また、より小さなタスク固有のドメイン上で、より大規模なトレーニング済みモデルを微調整することで、パフォーマンスのスケーリングがダウンストリームタスクに変換されることを示す。
論文 参考訳(メタデータ) (2024-12-10T15:20:56Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - LMSeg: Language-guided Multi-dataset Segmentation [15.624630978858324]
我々はLMSegと呼ばれる言語誘導型マルチデータセットフレームワークを提案し、セマンティックとパンプトのセグメンテーションの両方をサポートしている。
LMSegは、柔軟性のない1ホットラベルを使用する代わりに、カテゴリ名をテキスト埋め込みスペースに統一された分類としてマッピングする。
実験により,本手法は4つのセグメンテーションデータセットと3つのパノプティックセグメンテーションデータセットに対して有意な改善が得られた。
論文 参考訳(メタデータ) (2023-02-27T03:43:03Z) - Automatic universal taxonomies for multi-domain semantic segmentation [1.4364491422470593]
複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。
確立されたデータセットには 互いに互換性のないラベルがあります 野生の原理的推論を妨害します
我々は、反復的データセット統合による普遍的な構築によってこの問題に対処する。
論文 参考訳(メタデータ) (2022-07-18T08:53:17Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。