Fugu-MT 論文翻訳(概要): Shift and matching queries for video semantic segmentation

論文の概要: Shift and matching queries for video semantic segmentation

arxiv url: http://arxiv.org/abs/2410.07635v1
Date: Thu, 10 Oct 2024 06:07:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 15:56:40.615224
Title: Shift and matching queries for video semantic segmentation
Title（参考訳）: ビデオセマンティックセグメンテーションのためのシフトとマッチングクエリ
Authors: Tsubasa Mizuno, Toru Tamaki,
Abstract要約: 本稿では,問合せに基づく画像分割モデルをビデオに拡張する手法を提案する。この方法はクエリベースのアーキテクチャを使用し、デコードされたクエリはセグメンテーションマスクを表す。 CityScapes-VPSとVSPWの実験結果は、ベースラインから大きく改善された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video segmentation is a popular task, but applying image segmentation models frame-by-frame to videos does not preserve temporal consistency. In this paper, we propose a method to extend a query-based image segmentation model to video using feature shift and query matching. The method uses a query-based architecture, where decoded queries represent segmentation masks. These queries should be matched before performing the feature shift to ensure that the shifted queries represent the same mask across different frames. Experimental results on CityScapes-VPS and VSPW show significant improvements from the baselines, highlighting the method's effectiveness in enhancing segmentation quality while efficiently reusing pre-trained weights.
Abstract（参考訳）: ビデオセグメンテーションは一般的なタスクであるが、フレームごとのイメージセグメンテーションモデルをビデオに適用しても時間的一貫性は保たない。本稿では,特徴シフトとクエリマッチングを用いて,問合せに基づく画像分割モデルをビデオに拡張する手法を提案する。この方法はクエリベースのアーキテクチャを使用し、デコードされたクエリはセグメンテーションマスクを表す。これらのクエリは機能シフトを実行する前に一致し、シフトしたクエリが異なるフレームで同じマスクを表すことを保証する必要がある。 CityScapes-VPS と VSPW の実験結果から,プレトレーニング重量を効率的に再利用し,セグメンテーション品質を向上させる方法の有効性が示された。

関連論文リスト

Temporal-consistent CAMs for Weakly Supervised Video Segmentation in Waste Sorting [14.324826668510504]
本稿では,ビデオストリームの場合のセマンティックセグメンテーションのための正確なマスクを生成することができるWS手法を提案する。ビデオ内の連続するフレーム間の時間的コヒーレンスを利用して、サリエンシマップを構築する。我々は,映像セグメント化を弱めに制御する,ムダソーシングのシナリオに適用する。
論文参考訳（メタデータ） (2025-02-03T15:43:33Z)
Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文参考訳（メタデータ） (2024-08-20T08:08:32Z)
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-03-28T13:32:49Z)
Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2023-09-20T09:16:34Z)
Temporal-aware Hierarchical Mask Classification for Video Semantic Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。 VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-09-14T20:31:06Z)
Learning Dynamic Query Combinations for Transformer-based Object Detection and Segmentation [37.24532930188581]
トランスフォーマーに基づく検出とセグメンテーション方法は、学習された検出クエリのリストを使用して、トランスフォーマーネットワークから情報を取得する。学習したクエリの無作為な凸の組み合わせは、まだ対応するモデルに相応しいことを実証的に見出した。本稿では,画像の高レベルな意味論に基づいて,動的係数と凸の組み合わせを学習することを提案する。
論文参考訳（メタデータ） (2023-07-23T06:26:27Z)
MaskSearch: Querying Image Masks at Scale [60.82746984506577]
MaskSearchは、クエリ結果の正確性を確保しながら、イメージマスクのデータベース上でクエリを高速化するシステムである。試行錯誤実験の結果,圧縮データサイズの約5%のインデックスを用いたMaskSearchは,最大2桁のクエリを高速化することがわかった。
論文参考訳（メタデータ） (2023-05-03T18:28:14Z)
Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文参考訳（メタデータ） (2021-07-26T12:57:04Z)
End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文参考訳（メタデータ） (2020-11-30T02:03:50Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。