論文の概要: Boosting Video Object Segmentation based on Scale Inconsistency
- arxiv url: http://arxiv.org/abs/2205.01197v1
- Date: Mon, 2 May 2022 20:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:26:04.179996
- Title: Boosting Video Object Segmentation based on Scale Inconsistency
- Title(参考訳): スケール不整合に基づくビデオオブジェクトセグメンテーションの強化
- Authors: Hengyi Wang, Changjae Oh
- Abstract要約: 本稿では,事前訓練されたビデオオブジェクトセグメンテーション(VOS)モデルの性能を向上させるための改良フレームワークを提案する。
我々の研究はスケール不整合に基づいており、既存のVOSモデルが異なる大きさの入力フレームから不整合予測を生成するという観察から動機づけられている。
我々は、このスケール不整合を、異なるサイズの入力からの予測の利点を集約する画素レベルのアテンションモジュールを考案する手がかりとして利用する。
- 参考スコア(独自算出の注目度): 12.447379545167642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a refinement framework to boost the performance of pre-trained
semi-supervised video object segmentation (VOS) models. Our work is based on
scale inconsistency, which is motivated by the observation that existing VOS
models generate inconsistent predictions from input frames with different
sizes. We use the scale inconsistency as a clue to devise a pixel-level
attention module that aggregates the advantages of the predictions from
different-size inputs. The scale inconsistency is also used to regularize the
training based on a pixel-level variance measured by an uncertainty estimation.
We further present a self-supervised online adaptation, tailored for test-time
optimization, that bootstraps the predictions without ground-truth masks based
on the scale inconsistency. Experiments on DAVIS 16 and DAVIS 17 datasets show
that our framework can be generically applied to various VOS models and improve
their performance.
- Abstract(参考訳): 本稿では,事前学習した半教師付きビデオオブジェクトセグメンテーション(vos)モデルの性能向上のための改良フレームワークを提案する。
我々の研究はスケール不整合に基づいており、既存のVOSモデルが異なる大きさの入力フレームから不整合予測を生成するという観察から動機づけられている。
さまざまなサイズの入力から予測の利点を集約するピクセルレベルのアテンションモジュールを考案するための手掛かりとして,スケールの不整合を利用する。
また、不確実性推定によって測定された画素レベルの分散に基づいてトレーニングを正則化するために、スケール不一致も用いられる。
さらに,実験時間最適化に適した自己教師型オンライン適応システムを提案し,そのスケール不整合性に基づいて,地中安定マスクを使わずに予測をブートストラップする。
DAVIS 16 と DAVIS 17 データセットによる実験により、我々のフレームワークは様々な VOS モデルに汎用的に適用でき、性能が向上することが示された。
関連論文リスト
- Beyond mirkwood: Enhancing SED Modeling with Conformal Predictions [0.0]
SEDフィッティングにおける柔軟性と不確実性を向上する,高度な機械学習ベースのアプローチを提案する。
我々は、整合化量子レグレッションを組み込んで、点予測をエラーバーに変換し、解釈可能性と信頼性を向上させる。
論文 参考訳(メタデータ) (2023-12-21T11:27:20Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Texture-Based Input Feature Selection for Action Recognition [3.9596068699962323]
本稿では,ドメインの差分を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。
提案モデルは,HMDB-51データセットとPenn Actionデータセットにおいて,既存の行動認識モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T23:56:31Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Leveraging Angular Information Between Feature and Classifier for
Long-tailed Learning: A Prediction Reformulation Approach [90.77858044524544]
分類器の重みを再バランスすることなく、包含角度で認識確率を再構成する。
予測形式再構成の性能向上に着想を得て, この角度予測の異なる特性について検討する。
CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。
論文 参考訳(メタデータ) (2022-12-03T07:52:48Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。