Fugu-MT 論文翻訳(概要): TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation

論文の概要: TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation

arxiv url: http://arxiv.org/abs/2312.06630v3
Date: Sun, 17 Mar 2024 20:15:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 02:42:50.096981
Title: TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation
Title（参考訳）: TMT-VIS:ビデオインスタンスセグメンテーションのための分類学対応マルチデータセット共同トレーニング
Authors: Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao,
Abstract要約: 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを高めることができるが、VISのデータセットは労働コストが高いためスケールアップが難しい。私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気で挑戦的なベンチマークで、広範囲に評価を行っている。本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
参考スコア（独自算出の注目度）: 48.75470418596875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training on large-scale datasets can boost the performance of video instance segmentation while the annotated datasets for VIS are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly train models across the aggregation of datasets to enhance data volume and diversity. However, due to the heterogeneity in category space, as mask precision increases with the data volume, simply utilizing multiple datasets will dilute the attention of models on different taxonomies. Thus, increasing the data scale and enriching taxonomy space while improving classification precision is important. In this work, we analyze that providing extra taxonomy information can help models concentrate on specific taxonomy, and propose our model named Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation (TMT-VIS) to address this vital challenge. Specifically, we design a two-stage taxonomy aggregation module that first compiles taxonomy information from input videos and then aggregates these taxonomy priors into instance queries before the transformer decoder. We conduct extensive experimental evaluations on four popular and challenging benchmarks, including YouTube-VIS 2019, YouTube-VIS 2021, OVIS, and UVO. Our model shows significant improvement over the baseline solutions, and sets new state-of-the-art records on all benchmarks. These appealing and encouraging results demonstrate the effectiveness and generality of our approach. The code is available at https://github.com/rkzheng99/TMT-VIS .
Abstract（参考訳）: 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを向上すると同時に、VIS用の注釈付きデータセットは、高い労働コストのためにスケールアップが難しい。私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。しかし、カテゴリ空間における不均一性のため、マスクの精度がデータ量とともに増大するにつれて、複数のデータセットを利用するだけで、異なる分類のモデルの注意を薄めることになる。したがって、分類精度を向上しつつ、データスケールの増大と分類空間の充実が重要である。本研究では,この課題に対処するために,分類情報の提供が特定の分類に焦点をあてる上で有効であることを示すとともに,ビデオインスタンス分割のためのマルチデータセット統合トレーニング(TMT-VIS)というモデルを提案する。具体的には、2段階の分類集計モジュールを設計し、まず入力ビデオから分類情報をコンパイルし、変換器デコーダの前にこれらの分類先行情報をインスタンスクエリに集約する。我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気かつ挑戦的なベンチマークに対して、広範な実験的評価を行う。本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。これらの魅力的で奨励的な結果は、我々のアプローチの有効性と汎用性を示している。コードはhttps://github.com/rkzheng99/TMT-VIS で公開されている。

関連論文リスト

RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文参考訳（メタデータ） (2025-05-23T15:27:57Z)
SkeletonX: Data-Efficient Skeleton-based Action Recognition via Cross-sample Feature Aggregation [34.65359766672547]
本稿では,最小限のデータによる効率的な適応を実現するために,ワンショットおよび限定的な学習環境について検討する。我々は、既存のGCNベースのスケルトンアクション認識器とシームレスに統合される軽量なトレーニングパイプラインであるSkeletonXを紹介する。従来の最先端の手法を1ショット設定で上回り、パラメータの1/10しかなく、FLOPもはるかに少ない。
論文参考訳（メタデータ） (2025-04-16T04:01:42Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
Scaling Sequential Recommendation Models with Transformers [0.0]
我々は、大規模言語モデルのトレーニングで観察されるスケーリング法則からインスピレーションを得て、シーケンシャルなレコメンデーションのために同様の原則を探求する。計算最適トレーニングは可能だが、アプリケーション固有の計算性能トレードオフを慎重に分析する必要がある。また、より小さなタスク固有のドメイン上で、より大規模なトレーニング済みモデルを微調整することで、パフォーマンスのスケーリングがダウンストリームタスクに変換されることを示す。
論文参考訳（メタデータ） (2024-12-10T15:20:56Z)
SSE: Multimodal Semantic Data Selection and Enrichment for Industrial-scale Data Assimilation [29.454948190814765]
近年、人工知能のために収集されたデータは、管理不能な量に成長している。セマンティックに多様で重要なデータセット部分を選択するためのフレームワークを提案する。巨大なラベルのないデータプールから意味のある新しいデータを発見することで、さらにセマンティックに強化します。
論文参考訳（メタデータ） (2024-09-20T19:17:52Z)
Automated Label Unification for Multi-Dataset Semantic Segmentation with GNNs [48.406728896785296]
本稿では,グラフニューラルネットワークを用いて,複数のデータセットにまたがる統一ラベル空間を自動構築する手法を提案する。従来の手法と異なり,本手法は手動の注釈や分類の調整を必要とせず,シームレスな訓練を容易にする。
論文参考訳（メタデータ） (2024-07-15T08:42:10Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
LMSeg: Language-guided Multi-dataset Segmentation [15.624630978858324]
我々はLMSegと呼ばれる言語誘導型マルチデータセットフレームワークを提案し、セマンティックとパンプトのセグメンテーションの両方をサポートしている。 LMSegは、柔軟性のない1ホットラベルを使用する代わりに、カテゴリ名をテキスト埋め込みスペースに統一された分類としてマッピングする。実験により,本手法は4つのセグメンテーションデータセットと3つのパノプティックセグメンテーションデータセットに対して有意な改善が得られた。
論文参考訳（メタデータ） (2023-02-27T03:43:03Z)
Automatic universal taxonomies for multi-domain semantic segmentation [1.4364491422470593]
複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。確立されたデータセットには互いに互換性のないラベルがあります野生の原理的推論を妨害します我々は、反復的データセット統合による普遍的な構築によってこの問題に対処する。
論文参考訳（メタデータ） (2022-07-18T08:53:17Z)
Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文参考訳（メタデータ） (2022-07-08T10:25:47Z)
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文参考訳（メタデータ） (2021-12-27T16:16:35Z)
Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文参考訳（メタデータ） (2021-06-08T06:13:11Z)
The Devil is in Classification: A Simple Framework for Long-tail Object Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。主な原因は、オブジェクト提案の不正確な分類である。そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-23T12:49:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。