論文の概要: Robust Promptable Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2605.12006v1
- Date: Tue, 12 May 2026 11:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.834996
- Title: Robust Promptable Video Object Segmentation
- Title(参考訳): 頑丈なプロンプトブルビデオオブジェクトセグメンテーション
- Authors: Sohyun Lee, Yeho Gwon, Lukas Hoyer, Konrad Schindler, Christos Sakaridis, Suha Kwak,
- Abstract要約: 本稿では,ロバストPVOS(RobustPVOS)の総合的研究について述べる。
まず,351本のビデオクリップと2500枚以上のオブジェクトマスクの2つの実世界評価データセットを用いて,新しい総合的ベンチマークを構築した。
メモリオブジェクト条件付きGated-rank Adaptation (MoGA) と呼ばれる新しいロバストPVOS法を提案する。
- 参考スコア(独自算出の注目度): 67.1533741758339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of promptable video object segmentation (PVOS) models substantially degrades under input corruptions, which prevents PVOS deployment in safety-critical domains. This paper offers the first comprehensive study on robust PVOS (RobustPVOS). We first construct a new, comprehensive benchmark with two real-world evaluation datasets of 351 video clips and more than 2,500 object masks under real-world adverse conditions. At the same time, we generate synthetic training data by applying diverse and temporally varying corruptions to existing VOS datasets. Moreover, we present a new RobustPVOS method, dubbed Memory-object-conditioned Gated-rank Adaptation (MoGA). The key to successfully performing RobustPVOS is two-fold: effectively handling object-specific degradation and ensuring temporal consistency in predictions. MoGA leverages object-specific representations maintained in memory across frames to condition the robustification process, which allows the model to handle each tracked object differently in a temporally consistent way. Extensive experiments on our benchmark validate MoGA's efficacy, showing consistent and significant improvements across diverse corruption types on both synthetic and real-world datasets, establishing a strong baseline for future RobustPVOS research. Our benchmark is publicly available at https://sohyun-l.github.io/RobustPVOS_project_page/.
- Abstract(参考訳): 迅速なビデオオブジェクト分割(PVOS)モデルの性能は、入力の破損により大幅に低下し、PVOSの安全クリティカルドメインへの展開が妨げられる。
本稿では,ロバストPVOS (RobustPVOS) に関する総合的研究を行う。
まず、実世界の悪条件下で351本のビデオクリップと2500枚以上のオブジェクトマスクの2つの実世界の評価データセットを用いて、新しい総合的なベンチマークを構築した。
同時に、既存のVOSデータセットに多様かつ時間的に異なる汚職を適用して、合成トレーニングデータを生成する。
さらに,メモリオブジェクト条件付きGated-rank Adaptation (MoGA) と呼ばれる新しいロバストPVOS法を提案する。
RobustPVOSを成功させる鍵は2つある。オブジェクト固有の劣化を効果的に処理し、予測における時間的一貫性を確保することだ。
MoGAはメモリに保持されるオブジェクト固有の表現を活用して、ロバスト化プロセスを条件にすることで、各追跡対象を時間的に一貫した方法で別々に扱うことができる。
私たちのベンチマークにおける大規模な実験は、MoGAの有効性を検証し、合成データセットと実世界のデータセットの両方において、さまざまな汚職タイプ間で一貫性と大幅な改善を示し、将来のRobostPVOS研究の強力なベースラインを確立します。
私たちのベンチマークはhttps://sohyun-l.github.io/RobustPVOS_project_page/で公開されています。
関連論文リスト
- RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.55677741919035]
顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。
P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。
未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文 参考訳(メタデータ) (2025-04-07T08:53:14Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。