Fugu-MT 論文翻訳(概要): Towards Temporally Consistent Referring Video Object Segmentation

論文の概要: Towards Temporally Consistent Referring Video Object Segmentation

arxiv url: http://arxiv.org/abs/2403.19407v1
Date: Thu, 28 Mar 2024 13:32:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 16:14:04.141598
Title: Towards Temporally Consistent Referring Video Object Segmentation
Title（参考訳）: ビデオオブジェクトセグメンテーションの時間的一貫性を目指して
Authors: Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Mubarak Shah, Ajmal Mian,
Abstract要約: 本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
参考スコア（独自算出の注目度）: 98.80249255577304
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Referring Video Object Segmentation (R-VOS) methods face challenges in maintaining consistent object segmentation due to temporal context variability and the presence of other visually similar objects. We propose an end-to-end R-VOS paradigm that explicitly models temporal instance consistency alongside the referring segmentation. Specifically, we introduce a novel hybrid memory that facilitates inter-frame collaboration for robust spatio-temporal matching and propagation. Features of frames with automatically generated high-quality reference masks are propagated to segment the remaining frames based on multi-granularity association to achieve temporally consistent R-VOS. Furthermore, we propose a new Mask Consistency Score (MCS) metric to evaluate the temporal consistency of video segmentation. Extensive experiments demonstrate that our approach enhances temporal consistency by a significant margin, leading to top-ranked performance on popular R-VOS benchmarks, i.e., Ref-YouTube-VOS (67.1%) and Ref-DAVIS17 (65.6%).
Abstract（参考訳）: ビデオオブジェクトセグメンテーション(R-VOS)手法の参照は、時間的文脈変動と他の視覚的に類似したオブジェクトの存在により、一貫したオブジェクトセグメンテーションを維持する上で困難に直面する。本稿では,参照セグメンテーションとともに時間的インスタンスの一貫性を明示的にモデル化する,エンドツーエンドのR-VOSパラダイムを提案する。具体的には,フレーム間協調による時空間整合と伝播を容易にする新しいハイブリッドメモリを提案する。自動生成された高品質の参照マスクを有するフレームの特徴を伝播させて、多粒度アソシエーションに基づいて残りのフレームを分割し、時間的に一貫したR-VOSを実現する。さらに,ビデオセグメンテーションの時間的一貫性を評価するために,新しいマスク一貫性スコア(MCS)尺度を提案する。大規模な実験により、我々のアプローチは時間的一貫性をかなりのマージンで向上させ、R-VOSベンチマーク、すなわちRef-YouTube-VOS(67.1%)とRef-DAVIS17(65.6%)で最高のパフォーマンスをもたらすことが示されている。

関連論文リスト

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-08T17:59:57Z)
DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation [0.4487265603408873]
DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。 DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
論文参考訳（メタデータ） (2024-05-11T14:57:22Z)
Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文参考訳（メタデータ） (2024-04-09T12:44:34Z)
Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [47.7036344302777]
現在のオブジェクトビデオ参照メソッドは、抽出-then-matchingのパイプラインに従う。本稿では,共同機能モデリング,対応,圧縮メモリのための統合VOSフレームワークであるJointFormerを提案する。
論文参考訳（メタデータ） (2023-08-25T17:30:08Z)
RefineVIS: Video Instance Segmentation with Temporal Attention Refinement [23.720986152136785]
RefineVISは、既製のフレームレベルのイメージインスタンスセグメンテーションモデルの上に、2つの別々の表現を学習する。 TAR(Temporal Attention Refinement)モジュールは、時間的関係を利用して識別的セグメンテーション表現を学習する。 YouTube-VIS 2019 (64.4 AP)、Youtube-VIS 2021 (61.4 AP)、OVIS (46.1 AP)データセットで最先端のビデオインスタンスのセグメンテーション精度を達成する。
論文参考訳（メタデータ） (2023-06-07T20:45:15Z)
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文参考訳（メタデータ） (2023-05-26T15:13:44Z)
Distortion-Aware Network Pruning and Feature Reuse for Real-time Video Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文参考訳（メタデータ） (2022-06-20T07:20:02Z)
Consistent Video Instance Segmentation with Inter-Frame Recurrent Attention [23.72098615213679]
ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-14T17:22:55Z)
Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文参考訳（メタデータ） (2021-07-28T03:57:12Z)
Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文参考訳（メタデータ） (2021-06-09T16:50:57Z)
Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文参考訳（メタデータ） (2020-03-13T06:07:45Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。