Fugu-MT 論文翻訳(概要): Semantic Segmentation on VSPW Dataset through Masked Video Consistency

論文の概要: Semantic Segmentation on VSPW Dataset through Masked Video Consistency

arxiv url: http://arxiv.org/abs/2406.04979v1
Date: Fri, 7 Jun 2024 14:41:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 13:41:57.380303
Title: Semantic Segmentation on VSPW Dataset through Masked Video Consistency
Title（参考訳）: マスク付きビデオ一貫性によるVSPWデータセットのセマンティックセグメンテーション
Authors: Chen Liang, Qiang Guo, Chongkai Yu, Chengjing Wu, Ting Liu, Luoqi Liu,
Abstract要約: PVUWコンペティションのソリューションとして,既存のモデルに基づくマスク付きビデオ(MVC)を紹介する。 MVCは、パッチが保持されないマスキングランダムフレームの予測間の一貫性を強制する。 VSPWデータセットでは,PVUW2024 VSSトラックの2位で67% mIoU性能を達成した。
参考スコア（独自算出の注目度）: 19.851665554201407
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Pixel-level Video Understanding requires effectively integrating three-dimensional data in both spatial and temporal dimensions to learn accurate and stable semantic information from continuous frames. However, existing advanced models on the VSPW dataset have not fully modeled spatiotemporal relationships. In this paper, we present our solution for the PVUW competition, where we introduce masked video consistency (MVC) based on existing models. MVC enforces the consistency between predictions of masked frames where random patches are withheld. The model needs to learn the segmentation results of the masked parts through the context of images and the relationship between preceding and succeeding frames of the video. Additionally, we employed test-time augmentation, model aggeregation and a multimodal model-based post-processing method. Our approach achieves 67.27% mIoU performance on the VSPW dataset, ranking 2nd place in the PVUW2024 challenge VSS track.
Abstract（参考訳）: 画素レベルのビデオ理解は、連続したフレームから正確で安定したセマンティック情報を学習するために、空間次元と時間次元の両方に効果的に3次元データを統合する必要がある。しかしながら、VSPWデータセット上の既存の高度なモデルは、時空間関係を完全にモデル化していない。本稿では,PVUWコンペティションの解決策として,既存のモデルに基づくマスク付きビデオ整合性(MVC)を提案する。 MVCは、ランダムなパッチが保持されないマスキングフレームの予測間の一貫性を強制する。モデルは、画像のコンテキストと、ビデオの先行フレームと後続フレームの関係を通して、マスクされた部分のセグメンテーション結果を学ぶ必要がある。さらに,テスト時間拡張,モデル強調,マルチモーダルモデルに基づく後処理手法も導入した。 VSPWデータセット上で67.27%のmIoUを達成し、PVUW2024チャレンジVSSトラックで2位にランクインした。

関連論文リスト

MiVID: Multi-Strategic Self-Supervision for Video Frame Interpolation using Diffusion Model [2.9795035162522194]
この記事では、ビデオレンダリングのための軽量で自己監督型の拡散ベースのフレームワークであるMiVIDを紹介する。本モデルでは,3次元U-Netバックボーンとトランスフォーマスタイルの時間的注意を組み合わせることで,明示的な動き推定の必要性を解消する。この結果から,MiVIDは50エポックしか得られず,教師付きベースラインと競合することがわかった。
論文参考訳（メタデータ） (2025-11-08T14:10:04Z)
FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文参考訳（メタデータ） (2025-09-28T17:59:43Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文参考訳（メタデータ） (2024-08-20T08:08:32Z)
Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-27T08:39:38Z)
Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文参考訳（メタデータ） (2024-03-28T03:07:16Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文参考訳（メタデータ） (2022-04-06T17:45:38Z)
Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文参考訳（メタデータ） (2021-06-17T13:06:24Z)
Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文参考訳（メタデータ） (2020-07-02T00:59:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。