論文の概要: Putting the Object Back into Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2310.12982v2
- Date: Thu, 11 Apr 2024 22:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 19:35:34.070998
- Title: Putting the Object Back into Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションにオブジェクトを戻す
- Authors: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Joon-Young Lee, Alexander Schwing,
- Abstract要約: ここでは、オブジェクトレベルのメモリ読み込みを備えたビデオオブジェクトセグメンテーションネットワークであるCutieを紹介する。
Cutieは、オブジェクトクエリの小さなセットを適用することで、トップダウンのオブジェクトレベルのメモリ読み込みを実行する。
CutieはXMemで8.7J&F、DeAOTで4.2J&Fで3倍高速である。
- 参考スコア(独自算出の注目度): 82.1737294141078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Cutie, a video object segmentation (VOS) network with object-level memory reading, which puts the object representation from memory back into the video object segmentation result. Recent works on VOS employ bottom-up pixel-level memory reading which struggles due to matching noise, especially in the presence of distractors, resulting in lower performance in more challenging data. In contrast, Cutie performs top-down object-level memory reading by adapting a small set of object queries. Via those, it interacts with the bottom-up pixel features iteratively with a query-based object transformer (qt, hence Cutie). The object queries act as a high-level summary of the target object, while high-resolution feature maps are retained for accurate segmentation. Together with foreground-background masked attention, Cutie cleanly separates the semantics of the foreground object from the background. On the challenging MOSE dataset, Cutie improves by 8.7 J&F over XMem with a similar running time and improves by 4.2 J&F over DeAOT while being three times faster. Code is available at: https://hkchengrex.github.io/Cutie
- Abstract(参考訳): 我々は、オブジェクトレベルのメモリ読み込みを備えたビデオオブジェクトセグメンテーション(VOS)ネットワークであるCutieを紹介し、メモリからのオブジェクト表現をビデオオブジェクトセグメンテーション結果に戻す。
VOSの最近の研究はボトムアップレベルのメモリ読み込みを採用しており、特にノイズの一致に苦しむため、より困難なデータではパフォーマンスが低下する。
対照的にCutieは、オブジェクトクエリの小さなセットを適用することで、トップダウンのオブジェクトレベルのメモリ読み込みを実行する。
それらは、ボトムアップのピクセル機能と、クエリベースのオブジェクト変換器(qt、つまりCutie)と反復的に相互作用する。
オブジェクトクエリは対象オブジェクトの高レベル要約として機能し、高解像度の特徴マップは正確なセグメンテーションのために保持される。
フォアグラウンド・バックグラウンド・マスクされた注意と共に、Cutieはフォアグラウンド・オブジェクトのセマンティクスを背景からきれいに分離する。
挑戦的なMOSEデータセットでは、CutieはXMemで8.7J&F、DEAOTで4.2J&F改善し、3倍高速である。
コードは、https://hkchengrex.github.io/Cutieで入手できる。
関連論文リスト
- Part2Object: Hierarchical Unsupervised 3D Instance Segmentation [31.44173252707684]
教師なしの3Dインスタンスセグメンテーションは、アノテーションなしで3Dポイントクラウドからオブジェクトをセグメントすることを目的としている。
Part2Objectは、ポイントからオブジェクトの部分やオブジェクトへの多層クラスタリングを採用しており、任意のレイヤでオブジェクトが表現できる。
階層型3Dオブジェクト部分とインスタンスセグメンテーションをサポートするHi-Mask3Dを提案する。
論文 参考訳(メタデータ) (2024-07-14T05:18:15Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - ClickVOS: Click Video Object Segmentation [29.20434078000283]
Video Object(VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。
これらの制限に対処するため、Click Video Object (ClickVOS) という設定を提案する。
ClickVOSは、第1フレーム内のオブジェクトごとのクリック数に応じて、ビデオ全体を通して関心のあるオブジェクトをセグメントする。
論文 参考訳(メタデータ) (2024-03-10T08:37:37Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor
Environments [67.34330257205525]
本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。
本稿では,注釈付きオブジェクトを用いて画素のオブジェクト性」を学習し,乱雑な屋内環境における未知のオブジェクトカテゴリに一般化する手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T17:59:48Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。