論文の概要: M$^3$-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2412.13803v1
- Date: Wed, 18 Dec 2024 12:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:00.834542
- Title: M$^3$-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation
- Title(参考訳): M$^3$-VOS:Multi-Phase,Multi-Transition,Multi-Scenery Video Object Segmentation
- Authors: Zixuan Chen, Jiaxin Li, Liming Tan, Yejie Guo, Junxuan Liang, Cewu Lu, Yonglu Li,
- Abstract要約: 本稿では,その視覚的特徴と潜在的な形態的・外見的変化に基づいて,現実世界の物体を分類するセグメンテーションにおける位相の概念を紹介する。
我々は,M3-VOS(Multi-Phase, Multi-Transition and Multi-Scenery Video Object)という新しいベンチマークを提案し,対象相を理解するためのモデルの有効性を検証する。
本稿では,リバーサルリファインメントにより再生性能を向上させる新しいプラグアンドプレイモデルであるReVOSを提案する。
- 参考スコア(独自算出の注目度): 51.82272563578793
- License:
- Abstract: Intelligent robots need to interact with diverse objects across various environments. The appearance and state of objects frequently undergo complex transformations depending on the object properties, e.g., phase transitions. However, in the vision community, segmenting dynamic objects with phase transitions is overlooked. In light of this, we introduce the concept of phase in segmentation, which categorizes real-world objects based on their visual characteristics and potential morphological and appearance changes. Then, we present a new benchmark, Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation (M3-VOS), to verify the ability of models to understand object phases, which consists of 479 high-resolution videos spanning over 10 distinct everyday scenarios. It provides dense instance mask annotations that capture both object phases and their transitions. We evaluate state-of-the-art methods on M3-VOS, yielding several key insights. Notably, current appearance based approaches show significant room for improvement when handling objects with phase transitions. The inherent changes in disorder suggest that the predictive performance of the forward entropy-increasing process can be improved through a reverse entropy-reducing process. These findings lead us to propose ReVOS, a new plug-and-play model that improves its performance by reversal refinement. Our data and code will be publicly available
- Abstract(参考訳): インテリジェントなロボットは、さまざまな環境にまたがる多様なオブジェクトと対話する必要がある。
オブジェクトの出現と状態は、しばしば、オブジェクトの性質、例えば相転移に依存する複雑な変換を受けます。
しかし、ビジョンコミュニティでは、動的オブジェクトと位相遷移のセグメンテーションは見過ごされてしまう。
そこで我々は,その視覚的特徴と潜在的な形態的・外見的変化に基づいて,現実世界の物体を分類するセグメンテーションにおける位相の概念を導入する。
そこで,本研究では,M3-VOS(Multi-Phase,Multi-Transition,Multi-Scenery Video Object Segmentation)という,10の異なる日常シナリオにまたがる479の高解像度ビデオからなるオブジェクト位相の理解能力を検証するベンチマークを提案する。
オブジェクトフェーズとそれらの遷移の両方をキャプチャする、高密度なインスタンスマスクアノテーションを提供する。
我々はM3-VOSの最先端手法を評価し,いくつかの重要な知見を得た。
特に、現在の外観に基づくアプローチは、フェーズ遷移を伴うオブジェクトの扱いにおいて、改善の余地が顕著である。
障害の固有の変化は、前方エントロピー増加過程の予測性能が逆エントロピー減少過程によって改善できることを示唆している。
これらの結果から,リバーサルリファインメントにより再生性能を向上させる新しいプラグアンドプレイモデルであるReVOSを提案する。
私たちのデータとコードは公開されます
関連論文リスト
- ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z) - Learning Robust Dynamics through Variational Sparse Gating [18.476155786474358]
多くのオブジェクトを持つ環境では、少数のオブジェクトが同時に動いたり相互作用したりしているのが普通です。
本稿では,このスパース相互作用の帰納バイアスを,画素から学習した世界モデルの潜在ダイナミクスに統合する。
論文 参考訳(メタデータ) (2022-10-21T02:56:51Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。