Fugu-MT 論文翻訳(概要): Boosting Video Object Segmentation based on Scale Inconsistency

論文の概要: Boosting Video Object Segmentation based on Scale Inconsistency

arxiv url: http://arxiv.org/abs/2205.01197v1
Date: Mon, 2 May 2022 20:22:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-04 14:26:04.179996
Title: Boosting Video Object Segmentation based on Scale Inconsistency
Title（参考訳）: スケール不整合に基づくビデオオブジェクトセグメンテーションの強化
Authors: Hengyi Wang, Changjae Oh
Abstract要約: 本稿では,事前訓練されたビデオオブジェクトセグメンテーション(VOS)モデルの性能を向上させるための改良フレームワークを提案する。我々の研究はスケール不整合に基づいており、既存のVOSモデルが異なる大きさの入力フレームから不整合予測を生成するという観察から動機づけられている。我々は、このスケール不整合を、異なるサイズの入力からの予測の利点を集約する画素レベルのアテンションモジュールを考案する手がかりとして利用する。
参考スコア（独自算出の注目度）: 12.447379545167642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a refinement framework to boost the performance of pre-trained semi-supervised video object segmentation (VOS) models. Our work is based on scale inconsistency, which is motivated by the observation that existing VOS models generate inconsistent predictions from input frames with different sizes. We use the scale inconsistency as a clue to devise a pixel-level attention module that aggregates the advantages of the predictions from different-size inputs. The scale inconsistency is also used to regularize the training based on a pixel-level variance measured by an uncertainty estimation. We further present a self-supervised online adaptation, tailored for test-time optimization, that bootstraps the predictions without ground-truth masks based on the scale inconsistency. Experiments on DAVIS 16 and DAVIS 17 datasets show that our framework can be generically applied to various VOS models and improve their performance.
Abstract（参考訳）: 本稿では,事前学習した半教師付きビデオオブジェクトセグメンテーション(vos)モデルの性能向上のための改良フレームワークを提案する。我々の研究はスケール不整合に基づいており、既存のVOSモデルが異なる大きさの入力フレームから不整合予測を生成するという観察から動機づけられている。さまざまなサイズの入力から予測の利点を集約するピクセルレベルのアテンションモジュールを考案するための手掛かりとして,スケールの不整合を利用する。また、不確実性推定によって測定された画素レベルの分散に基づいてトレーニングを正則化するために、スケール不一致も用いられる。さらに,実験時間最適化に適した自己教師型オンライン適応システムを提案し,そのスケール不整合性に基づいて,地中安定マスクを使わずに予測をブートストラップする。 DAVIS 16 と DAVIS 17 データセットによる実験により、我々のフレームワークは様々な VOS モデルに汎用的に適用でき、性能が向上することが示された。

関連論文リスト

Understanding GUI Agent Localization Biases through Logit Sharpness [15.986679553468989]
MLLM(Multimodal large language model)は、GUIエージェントが言語を空間的アクションにグラウンドすることでオペレーティングシステムと対話することを可能にする。有望な性能にもかかわらず、これらのモデルはしばしば、信頼性を損なう幻覚的局所化誤差を示す。モデル予測を4つの異なるタイプに分類し,従来の精度測定値を超える不確実な障害モードを明らかにするための,きめ細かい評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-18T12:55:35Z)
Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文参考訳（メタデータ） (2025-03-05T14:18:39Z)
DiffSim: Taming Diffusion Models for Evaluating Visual Similarity [19.989551230170584]
本稿では,生成モデルにおける視覚的類似度を測定するDiffSim法を提案する。 Denoising U-Netの注目層に特徴を合わせることで、DiffSimは外観とスタイルの類似性の両方を評価する。また,Sref と IP ベンチマークを導入し,視覚的類似性の評価を行った。
論文参考訳（メタデータ） (2024-12-19T07:00:03Z)
Scale-Invariant Learning-to-Rank [0.0]
Expediaでは、学習からランクまでのモデルが、ユーザがより関連性のある情報をソートし提示する上で重要な役割を担っている。これらのモデルをデプロイする上で大きな課題は、トレーニングと運用データ間の一貫した機能スケーリングを保証することだ。本稿では,学習時間と予測時間の両方でモデル内のスケール不変性を数学的に保証するために,ディープニューラルネットワークとワイドニューラルネットワークを組み合わせたスケール不変LTRフレームワークを提案する。我々は、予測時にテストセットを摂動させることにより、実世界のシナリオをシミュレーションして評価し、一貫性のないトレインテストのスケーリングであっても、フレームワークを使用した場合よりも優れたパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2024-10-02T19:05:12Z)
Evaluating Model Bias Requires Characterizing its Mistakes [19.777130236160712]
スキューサイズ(SkewSize)は、モデルの予測における誤りからバイアスを捉える、原則付きフレキシブルなメトリクスである。マルチクラスの設定で使用したり、生成モデルのオープンな語彙設定に一般化することができる。合成データで訓練された標準的な視覚モデル、ImageNetで訓練された視覚モデル、BLIP-2ファミリーの大規模視覚言語モデルなどである。
論文参考訳（メタデータ） (2024-07-15T11:46:21Z)
Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-27T08:39:38Z)
Beyond mirkwood: Enhancing SED Modeling with Conformal Predictions [0.0]
SEDフィッティングにおける柔軟性と不確実性を向上する,高度な機械学習ベースのアプローチを提案する。我々は、整合化量子レグレッションを組み込んで、点予測をエラーバーに変換し、解釈可能性と信頼性を向上させる。
論文参考訳（メタデータ） (2023-12-21T11:27:20Z)
A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文参考訳（メタデータ） (2023-04-26T17:59:45Z)
Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文参考訳（メタデータ） (2023-03-28T21:02:35Z)
STDepthFormer: Predicting Spatio-temporal Depth from Video with a Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文参考訳（メタデータ） (2023-03-02T12:22:51Z)
Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。 Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。 LASSO を用いて Model-to-Match フレームワークを運用する。
論文参考訳（メタデータ） (2023-02-23T00:43:03Z)
Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文参考訳（メタデータ） (2021-11-11T15:15:11Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。