論文の概要: General and Task-Oriented Video Segmentation
- arxiv url: http://arxiv.org/abs/2407.06540v1
- Date: Tue, 9 Jul 2024 04:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:15:33.006124
- Title: General and Task-Oriented Video Segmentation
- Title(参考訳): 汎用とタスク指向のビデオセグメンテーション
- Authors: Mu Chen, Liulei Li, Wenguan Wang, Ruijie Quan, Yi Yang,
- Abstract要約: GvSegは、4つの異なるビデオセグメンテーションタスクに対処するための一般的なビデオセグメンテーションフレームワークである。
GvSegはセグメントターゲットに対する全体論的アンタングルとモデリングを提供し、外観、位置、形状の観点からそれらを徹底的に検証する。
7つのゴールド標準ベンチマークデータセットに関する大規模な実験は、GvSegが既存の専門/一般のソリューションをすべて超越していることを示している。
- 参考スコア(独自算出の注目度): 60.58054218592606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GvSeg, a general video segmentation framework for addressing four different video segmentation tasks (i.e., instance, semantic, panoptic, and exemplar-guided) while maintaining an identical architectural design. Currently, there is a trend towards developing general video segmentation solutions that can be applied across multiple tasks. This streamlines research endeavors and simplifies deployment. However, such a highly homogenized framework in current design, where each element maintains uniformity, could overlook the inherent diversity among different tasks and lead to suboptimal performance. To tackle this, GvSeg: i) provides a holistic disentanglement and modeling for segment targets, thoroughly examining them from the perspective of appearance, position, and shape, and on this basis, ii) reformulates the query initialization, matching and sampling strategies in alignment with the task-specific requirement. These architecture-agnostic innovations empower GvSeg to effectively address each unique task by accommodating the specific properties that characterize them. Extensive experiments on seven gold-standard benchmark datasets demonstrate that GvSeg surpasses all existing specialized/general solutions by a significant margin on four different video segmentation tasks.
- Abstract(参考訳): GvSegは、4つの異なるビデオセグメンテーションタスク(セマンティクス、パノプティクス、先例誘導)を同一のアーキテクチャ設計を維持しながら扱うための一般的なビデオセグメンテーションフレームワークである。
現在、複数のタスクにまたがって適用可能な一般的なビデオセグメンテーションソリューションの開発が進んでいる。
これにより、リサーチの取り組みが合理化され、デプロイが簡単になる。
しかし、現在の設計において、各要素が一様性を維持するような高度に均質化されたフレームワークは、異なるタスクの固有の多様性を見落とし、最適以下のパフォーマンスをもたらす可能性がある。
これに取り組むため、GvSeg:
一 セグメント目標に対する全体的歪曲及びモデリングを提供し、外観、位置及び形状の観点から徹底的に検証し、この限りでないこと。
二 タスク固有の要件に従って、クエリの初期化、マッチング及びサンプリング戦略を変更すること。
これらのアーキテクチャに依存しない革新により、GvSegはそれぞれのユニークなタスクに効果的に対処できる。
7つのゴールド標準ベンチマークデータセットに対する大規模な実験により、GvSegは4つの異なるビデオセグメンテーションタスクにおいて、既存の専門/一般のソリューションをはるかに上回っていることが示された。
関連論文リスト
- GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation [42.89720785573885]
FreeSegはUnified、Universal、Open-Vocabulary Imageを実現するための汎用フレームワークである。
我々は,FreeSegが3つのセグメンテーションタスクの性能と一般化に新たな成果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-30T08:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。