論文の概要: Pixel-Level Equalized Matching for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2209.03139v1
- Date: Sun, 4 Sep 2022 18:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:43:16.480513
- Title: Pixel-Level Equalized Matching for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションにおける画素レベル等化マッチング
- Authors: Suhwan Cho, Woo Jin Kim, MyeongAh Cho, Seunghoon Lee, Minhyeok Lee,
Chaewon Park, Sangyoun Lee
- Abstract要約: 特徴類似性マッチングは、半教師付きビデオオブジェクトセグメンテーションの鍵となるコンポーネントである。
客観的マッチングメカニズムは、クエリフレームに転送される情報の量を制限することによって、これを防止しようとする。
これらの制限を克服する等化マッチング機構を導入する。
- 参考スコア(独自算出の注目度): 7.5779789998474945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature similarity matching, which transfers the information of the reference
frame to the query frame, is a key component in semi-supervised video object
segmentation. If surjective matching is adopted, background distractors can
easily occur and degrade the performance. Bijective matching mechanisms try to
prevent this by restricting the amount of information being transferred to the
query frame, but have two limitations: 1) surjective matching cannot be fully
leveraged as it is transformed to bijective matching at test time; and 2)
test-time manual tuning is required for searching the optimal hyper-parameters.
To overcome these limitations while ensuring reliable information transfer, we
introduce an equalized matching mechanism. To prevent the reference frame
information from being overly referenced, the potential contribution to the
query frame is equalized by simply applying a softmax operation along with the
query. On public benchmark datasets, our proposed approach achieves a
comparable performance to state-of-the-art methods.
- Abstract(参考訳): 参照フレームの情報をクエリフレームに転送する特徴類似性マッチングは、半教師付きビデオオブジェクトセグメンテーションにおいて重要なコンポーネントである。
主観的マッチングが採用されれば、バックグラウンドインタラプタが容易に発生し、性能を低下させることができる。
単射マッチング機構は、クエリフレームに転送される情報量を制限することでこれを防ぐが、2つの制限がある。
1) 単射マッチングは,テスト時に単射マッチングに変換されるため,完全には活用できない。
2)最適ハイパーパラメータの探索には,テストタイムの手動チューニングが必要である。
これらの制約を克服し、信頼性の高い情報転送を実現するため、等化マッチング機構を導入する。
基準フレーム情報が過度に参照されることを防止するため、クエリと共にソフトマックス操作を単純に施すことで、クエリフレームへの潜在的貢献を均等化する。
公開ベンチマークデータセットでは,提案手法は最先端手法に匹敵する性能を実現する。
関連論文リスト
- Benchmarking Video Frame Interpolation [11.918489436283748]
提案手法は,提案するWebサイトを利用して,一貫したエラーメトリクスを確立するベンチマークである。
また、合成データを利用して線形性の仮定に忠実なテストセットを提案し、コヒーレントな方法で計算効率を評価する。
論文 参考訳(メタデータ) (2024-03-25T19:13:12Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。
提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。
提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T14:29:29Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Multi-Scale Self-Contrastive Learning with Hard Negative Mining for
Weakly-Supervised Query-based Video Grounding [27.05117092371221]
本稿では,弱教師付き環境下での問合せに基づくビデオグラウンド処理に対処するための自己コントラスト学習フレームワークを提案する。
まず,クエリのセマンティクスを参照するフレームワイドマッチングスコアを学習し,前景フレームを予測できる新しいグラウンド方式を提案する。
第二に、予測されたフレームは比較的粗いので、隣接するフレームに類似した外観を示すため、粗いから微妙な対照的な学習パラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-08T04:01:08Z) - Perceptual Consistency in Video Segmentation [70.4434953097028]
近接する2つのビデオフレームが与えられた場合、知覚的一貫性は、セグメンテーション決定が一般的な知覚的特徴と一致するピクセル対応とどの程度一致しているかを測定する。
実験の結果,提案した知覚的一貫性は,映像分割の時間的一貫性をより正確に評価できることがわかった。
分類信頼性のみを使用する場合と比較して、ラベル付けされていないテストフレーム上でのセグメンテーションの精度をより確実に予測するのに役立つ。
論文 参考訳(メタデータ) (2021-10-24T08:08:49Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Evaluating Temporal Queries Over Video Feeds [25.04363138106074]
ビデオフィードにおけるオブジェクトとその共起に関する時間的クエリは、法執行機関からセキュリティ、安全に至るまで、多くのアプリケーションにとって関心がある。
本稿では,オブジェクト検出/追跡,中間データ生成,クエリ評価という3つのレイヤからなるアーキテクチャを提案する。
中間データ生成層における全ての検出対象を整理するために,MFSとSSGという2つの手法を提案する。
また、SSGに対して入力フレームを処理し、クエリ評価とは無関係なオブジェクトやフレームを効率よくプーンするState Traversal (ST)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-03-02T14:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。