論文の概要: Boosting Video Object Segmentation based on Scale Inconsistency
- arxiv url: http://arxiv.org/abs/2205.01197v1
- Date: Mon, 2 May 2022 20:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:26:04.179996
- Title: Boosting Video Object Segmentation based on Scale Inconsistency
- Title(参考訳): スケール不整合に基づくビデオオブジェクトセグメンテーションの強化
- Authors: Hengyi Wang, Changjae Oh
- Abstract要約: 本稿では,事前訓練されたビデオオブジェクトセグメンテーション(VOS)モデルの性能を向上させるための改良フレームワークを提案する。
我々の研究はスケール不整合に基づいており、既存のVOSモデルが異なる大きさの入力フレームから不整合予測を生成するという観察から動機づけられている。
我々は、このスケール不整合を、異なるサイズの入力からの予測の利点を集約する画素レベルのアテンションモジュールを考案する手がかりとして利用する。
- 参考スコア(独自算出の注目度): 12.447379545167642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a refinement framework to boost the performance of pre-trained
semi-supervised video object segmentation (VOS) models. Our work is based on
scale inconsistency, which is motivated by the observation that existing VOS
models generate inconsistent predictions from input frames with different
sizes. We use the scale inconsistency as a clue to devise a pixel-level
attention module that aggregates the advantages of the predictions from
different-size inputs. The scale inconsistency is also used to regularize the
training based on a pixel-level variance measured by an uncertainty estimation.
We further present a self-supervised online adaptation, tailored for test-time
optimization, that bootstraps the predictions without ground-truth masks based
on the scale inconsistency. Experiments on DAVIS 16 and DAVIS 17 datasets show
that our framework can be generically applied to various VOS models and improve
their performance.
- Abstract(参考訳): 本稿では,事前学習した半教師付きビデオオブジェクトセグメンテーション(vos)モデルの性能向上のための改良フレームワークを提案する。
我々の研究はスケール不整合に基づいており、既存のVOSモデルが異なる大きさの入力フレームから不整合予測を生成するという観察から動機づけられている。
さまざまなサイズの入力から予測の利点を集約するピクセルレベルのアテンションモジュールを考案するための手掛かりとして,スケールの不整合を利用する。
また、不確実性推定によって測定された画素レベルの分散に基づいてトレーニングを正則化するために、スケール不一致も用いられる。
さらに,実験時間最適化に適した自己教師型オンライン適応システムを提案し,そのスケール不整合性に基づいて,地中安定マスクを使わずに予測をブートストラップする。
DAVIS 16 と DAVIS 17 データセットによる実験により、我々のフレームワークは様々な VOS モデルに汎用的に適用でき、性能が向上することが示された。
関連論文リスト
- DiffSim: Taming Diffusion Models for Evaluating Visual Similarity [19.989551230170584]
本稿では,生成モデルにおける視覚的類似度を測定するDiffSim法を提案する。
Denoising U-Netの注目層に特徴を合わせることで、DiffSimは外観とスタイルの類似性の両方を評価する。
また,Sref と IP ベンチマークを導入し,視覚的類似性の評価を行った。
論文 参考訳(メタデータ) (2024-12-19T07:00:03Z) - Scale-Invariant Learning-to-Rank [0.0]
Expediaでは、学習からランクまでのモデルが、ユーザがより関連性のある情報をソートし提示する上で重要な役割を担っている。
これらのモデルをデプロイする上で大きな課題は、トレーニングと運用データ間の一貫した機能スケーリングを保証することだ。
本稿では,学習時間と予測時間の両方でモデル内のスケール不変性を数学的に保証するために,ディープニューラルネットワークとワイドニューラルネットワークを組み合わせたスケール不変LTRフレームワークを提案する。
我々は、予測時にテストセットを摂動させることにより、実世界のシナリオをシミュレーションして評価し、一貫性のないトレインテストのスケーリングであっても、フレームワークを使用した場合よりも優れたパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T19:05:12Z) - Evaluating Model Bias Requires Characterizing its Mistakes [19.777130236160712]
スキューサイズ(SkewSize)は、モデルの予測における誤りからバイアスを捉える、原則付きフレキシブルなメトリクスである。
マルチクラスの設定で使用したり、生成モデルのオープンな語彙設定に一般化することができる。
合成データで訓練された標準的な視覚モデル、ImageNetで訓練された視覚モデル、BLIP-2ファミリーの大規模視覚言語モデルなどである。
論文 参考訳(メタデータ) (2024-07-15T11:46:21Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - Beyond mirkwood: Enhancing SED Modeling with Conformal Predictions [0.0]
SEDフィッティングにおける柔軟性と不確実性を向上する,高度な機械学習ベースのアプローチを提案する。
我々は、整合化量子レグレッションを組み込んで、点予測をエラーバーに変換し、解釈可能性と信頼性を向上させる。
論文 参考訳(メタデータ) (2023-12-21T11:27:20Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。