Fugu-MT 論文翻訳(概要): Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended?

論文の概要: Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended?

arxiv url: http://arxiv.org/abs/2408.10627v1
Date: Tue, 20 Aug 2024 08:08:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 14:44:19.983763
Title: Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended?
Title（参考訳）: マスクビデオの一貫性によるビデオセグメンテーションの再考: モデルは意図的であったか?
Authors: Chen Liang, Qiang Guo, Xiaochao Qu, Luoqi Liu, Ting Liu,
Abstract要約: ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
参考スコア（独自算出の注目度）: 22.191260650245443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video segmentation aims at partitioning video sequences into meaningful segments based on objects or regions of interest within frames. Current video segmentation models are often derived from image segmentation techniques, which struggle to cope with small-scale or class-imbalanced video datasets. This leads to inconsistent segmentation results across frames. To address these issues, we propose a training strategy Masked Video Consistency, which enhances spatial and temporal feature aggregation. MVC introduces a training strategy that randomly masks image patches, compelling the network to predict the entire semantic segmentation, thus improving contextual information integration. Additionally, we introduce Object Masked Attention (OMA) to optimize the cross-attention mechanism by reducing the impact of irrelevant queries, thereby enhancing temporal modeling capabilities. Our approach, integrated into the latest decoupled universal video segmentation framework, achieves state-of-the-art performance across five datasets for three video segmentation tasks, demonstrating significant improvements over previous methods without increasing model parameters.
Abstract（参考訳）: ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。これにより、フレーム間の一貫性のないセグメンテーション結果が得られる。これらの課題に対処するために,空間的・時間的特徴集約を強化するMasked Video Consistencyを提案する。 MVCは、画像パッチをランダムに隠蔽し、セマンティックセグメンテーション全体の予測をネットワークに強制するトレーニング戦略を導入し、コンテキスト情報の統合を改善する。さらに、非関係なクエリの影響を低減し、時間的モデリング能力を向上させることにより、オブジェクトマスキング注意(OMA)を導入し、クロスアテンションメカニズムを最適化する。直近の分離されたユニバーサルビデオセグメンテーションフレームワークに組み込まれた我々の手法は,3つのビデオセグメンテーションタスクに対して,5つのデータセットにまたがる最先端のパフォーマンスを実現し,モデルパラメータを増大させることなく,従来の手法よりも大幅に改善されたことを示す。

関連論文リスト

ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。 MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文参考訳（メタデータ） (2025-05-24T07:01:31Z)
Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。 MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文参考訳（メタデータ） (2025-01-14T03:15:46Z)
Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
ReferEverything: Towards Segmenting Everything We Can Speak of in Videos [42.88584315033116]
本稿では、自然言語で記述可能な、幅広い概念をビデオにセグメント化するためのフレームワークREMを提案する。我々のキーとなる洞察は、生成モデルのアーキテクチャ全体を、ノイズの予測からマスクの潜伏率の予測にシフトさせることで、保存することである。 REMは、Ref-DAVISのようなドメイン内データセットの最先端のデータセットと同等に動作し、最大12IoUポイントのドメインを上回ります。
論文参考訳（メタデータ） (2024-10-30T17:59:26Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文参考訳（メタデータ） (2024-01-25T04:39:48Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Multi-entity Video Transformers for Fine-Grained Video Representation Learning [34.26732761916984]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。このアプローチの重要な側面は、時間パイプラインにおけるシーン情報の共有の改善です。我々のMV-Former(Multi-entity Video Transformer)は、フレームを時間にわたってリンクされたトークンとして表現されたエンティティのグループとして処理します。
論文参考訳（メタデータ） (2023-11-17T21:23:12Z)
Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文参考訳（メタデータ） (2023-10-10T18:03:41Z)
Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文参考訳（メタデータ） (2021-06-17T13:06:24Z)
Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文参考訳（メタデータ） (2021-04-14T21:37:23Z)
Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文参考訳（メタデータ） (2021-03-20T23:30:01Z)
Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文参考訳（メタデータ） (2021-01-06T18:56:24Z)
Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文参考訳（メタデータ） (2020-05-07T02:39:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。