論文の概要: The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2408.12447v1
- Date: Thu, 22 Aug 2024 14:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:32:07.508419
- Title: The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation
- Title(参考訳): LSVOS Challenge RVOS Track における第2の解:一貫性セマンティックセマンティックセグメンテーションのための時空間補正
- Authors: Tuyen Tran,
- Abstract要約: 本稿では,参照対象セグメンテーションモデルの時間的一貫性を高める手法を提案する。
提案手法は,ECCV 2024 LSVOS ChallengeにおいてRVOSトラックの最終ランキングで2位となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (RVOS) is a challenging task due to its requirement for temporal understanding. Due to the obstacle of computational complexity, many state-of-the-art models are trained on short time intervals. During testing, while these models can effectively process information over short time steps, they struggle to maintain consistent perception over prolonged time sequences, leading to inconsistencies in the resulting semantic segmentation masks. To address this challenge, we take a step further in this work by leveraging the tracking capabilities of the newly introduced Segment Anything Model version 2 (SAM-v2) to enhance the temporal consistency of the referring object segmentation model. Our method achieved a score of 60.40 \mathcal{J\text{\&}F} on the test set of the MeViS dataset, placing 2nd place in the final ranking of the RVOS Track at the ECCV 2024 LSVOS Challenge.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、時間的理解を必要とするため難しい課題である。
計算複雑性の障害のため、多くの最先端モデルは短時間で訓練される。
テスト中、これらのモデルは短時間で効果的に情報を処理できるが、長い時間列に対する一貫した認識を維持するのに苦労し、結果としてセマンティックセグメンテーションマスクの不整合をもたらす。
この課題に対処するために、新たに導入されたSegment Anything Modelバージョン2(SAM-v2)のトラッキング機能を活用して、参照オブジェクトセグメンテーションモデルの時間的一貫性を高めることで、この作業をさらに進める。
提案手法は,MeViSデータセットのテストセット上での60.40 \mathcal{J\text{\&}F}のスコアを達成し,ECCV 2024 LSVOS ChallengeにおけるRVOSトラックの最終ランキングで2位となった。
関連論文リスト
- Solution for OOD-CV UNICORN Challenge 2024 Object Detection Assistance LLM Counting Ability Improvement [6.621745547882088]
本報告では,ECCV OOD-CV UNICORN Challenge 2024で提案した手法について詳述する。
この競合のデータセットはOODCA-VQAとSketchyQAである。
最終テストでは0.86で2位にランクインした。
論文 参考訳(メタデータ) (2024-10-05T15:11:47Z) - Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - A novel dual-stream time-frequency contrastive pretext tasks framework
for sleep stage classification [1.9399172852087767]
本研究では、時間領域と周波数領域の両方で動作する二重ストリームプリテキスト・タスク・アーキテクチャを提案する。
我々は、新しい周波数類似性(FS)プリテキストタスクを2つの既存のプリテキストタスク、相対的位置決め(RP)と時間的シャッフル(TS)に組み入れた。
FSの導入により、ダウンストリームタスクの精度が大幅に改善され、RPが1.28パーセント改善、TSが2.02%改善された。
論文 参考訳(メタデータ) (2023-12-15T09:05:06Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。