論文の概要: Temporal-consistent CAMs for Weakly Supervised Video Segmentation in Waste Sorting
- arxiv url: http://arxiv.org/abs/2502.01455v1
- Date: Mon, 03 Feb 2025 15:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:21.680090
- Title: Temporal-consistent CAMs for Weakly Supervised Video Segmentation in Waste Sorting
- Title(参考訳): 廃棄物ソーティングにおける微視的映像分割のための時間整合CAM
- Authors: Andrea Marelli, Luca Magri, Federica Arrigoni, Giacomo Boracchi,
- Abstract要約: 本稿では,ビデオストリームの場合のセマンティックセグメンテーションのための正確なマスクを生成することができるWS手法を提案する。
ビデオ内の連続するフレーム間の時間的コヒーレンスを利用して、サリエンシマップを構築する。
我々は,映像セグメント化を弱めに制御する,ムダソーシングのシナリオに適用する。
- 参考スコア(独自算出の注目度): 14.324826668510504
- License:
- Abstract: In industrial settings, weakly supervised (WS) methods are usually preferred over their fully supervised (FS) counterparts as they do not require costly manual annotations. Unfortunately, the segmentation masks obtained in the WS regime are typically poor in terms of accuracy. In this work, we present a WS method capable of producing accurate masks for semantic segmentation in the case of video streams. More specifically, we build saliency maps that exploit the temporal coherence between consecutive frames in a video, promoting consistency when objects appear in different frames. We apply our method in a waste-sorting scenario, where we perform weakly supervised video segmentation (WSVS) by training an auxiliary classifier that distinguishes between videos recorded before and after a human operator, who manually removes specific wastes from a conveyor belt. The saliency maps of this classifier identify materials to be removed, and we modify the classifier training to minimize differences between the saliency map of a central frame and those in adjacent frames, after having compensated object displacement. Experiments on a real-world dataset demonstrate the benefits of integrating temporal coherence directly during the training phase of the classifier. Code and dataset are available upon request.
- Abstract(参考訳): 産業環境では、弱い教師付き(WS)メソッドは、コストのかかる手作業のアノテーションを必要としないため、完全に教師付き(FS)メソッドよりも好まれる。
残念なことに、WS 体制で得られたセグメンテーションマスクは、通常精度の点で貧弱です。
本稿では,ビデオストリームの場合のセマンティックセグメンテーションのための正確なマスクを生成することができるWS方式を提案する。
具体的には、ビデオ内の連続するフレーム間の時間的コヒーレンスを利用して、オブジェクトが異なるフレームに現れるときの一貫性を促進する。
そこで我々は,コンベアベルトから特定の廃棄物を手動で除去する人間の操作者の前後の映像を識別する補助分類器を訓練することにより,WSVSを弱教師付きビデオセグメンテーション(WSVS)に応用する。
本分類器のサリエンシマップは, 除去対象物質を特定し, 補償対象変位の後に, 中央フレームのサリエンシマップと隣接フレームのサリエンシマップとの差を最小限に抑えるため, 分類器のトレーニングを変更する。
実世界のデータセットの実験は、分類器の訓練段階において、時間的コヒーレンスを直接統合する利点を示している。
コードとデータセットは、要求に応じて利用できる。
関連論文リスト
- Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video [10.287675722826028]
本稿では,セミデカップリング型時間的知識蒸留を用いて,高品質なクラスアクティベーションマップ(CAM)の予測を行うために,VDST-Net(Video Spatio-Temporal Disment Networks)を導入している。
提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60%未満の注釈付きフレームに存在する,より困難な手術用ビデオデータセット上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:32Z) - Leveraging Transformers for Weakly Supervised Object Localization in Unconstrained Videos [12.762698438702854]
最先端WSVOL法はクラスアクティベーションマッピング(CAM)に依存している
我々のTrCAM-V法は,これらの領域からハエの擬似ピクセルをサンプリングすることで,ローカライズネットワークのトレーニングを可能にする。
推論中、モデルはリアルタイムなローカライゼーションアプリケーションのために個々のフレームを処理できる。
論文 参考訳(メタデータ) (2024-07-08T15:08:41Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Boosting Video Object Segmentation via Space-time Correspondence
Learning [48.8275459383339]
ビデオオブジェクトセグメンテーション(VOS)の現在のソリューションは、通常マッチングベースのレシエーションに従う。
そこで我々は,ロバストな対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する,対応対応型トレーニングフレームワークを考案した。
提案アルゴリズムは, 広く使用されている4つのベンチマークに対して, 確固たる性能向上をもたらす。
論文 参考訳(メタデータ) (2023-04-13T01:34:44Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。