論文の概要: Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2411.19210v1
- Date: Thu, 28 Nov 2024 15:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:07.813433
- Title: Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation
- Title(参考訳): ゼロショット・アモーダル・ビデオ・オブジェクトのセグメンテーション
- Authors: Finlay G. C. Hudson, William A. P. Smith,
- Abstract要約: Track Anything Behind Everything (TABE)は、目に見えるマスクからのゼロショットアモーダル補完のための、新しいデータセット、パイプライン、評価フレームワークである。
事前訓練されたクラスラベルを必要とする既存のメソッドとは異なり、我々のアプローチはオブジェクトが見える最初のフレームから単一のクエリマスクを使用する。
我々のデータセットであるTAB-51は、人間の推定や3次元再構成を必要とせず、高精度な地上真実のアモーダルセグメンテーションマスクを提供する。
- 参考スコア(独自算出の注目度): 15.272149101494005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Track Anything Behind Everything (TABE), a novel dataset, pipeline, and evaluation framework for zero-shot amodal completion from visible masks. Unlike existing methods that require pretrained class labels, our approach uses a single query mask from the first frame where the object is visible, enabling flexible, zero-shot inference. Our dataset, TABE-51 provides highly accurate ground truth amodal segmentation masks without the need for human estimation or 3D reconstruction. Our TABE pipeline is specifically designed to handle amodal completion, even in scenarios where objects are completely occluded. We also introduce a specialised evaluation framework that isolates amodal completion performance, free from the influence of traditional visual segmentation metrics.
- Abstract(参考訳): 目に見えるマスクからのゼロショットアモーダル補完のための新しいデータセット、パイプライン、評価フレームワークであるTABE(Track Anything Behind Everything)を提示する。
事前訓練されたクラスラベルを必要とする既存のメソッドとは異なり、我々のアプローチはオブジェクトが見える最初のフレームから単一のクエリマスクを使い、柔軟なゼロショット推論を可能にします。
我々のデータセットであるTAB-51は、人間の推定や3次元再構成を必要とせず、高精度な地上真実のアモーダルセグメンテーションマスクを提供する。
私たちのTABEパイプラインは、オブジェクトが完全に無視されているシナリオであっても、アモーダル補完を処理するように設計されています。
また、従来の視覚的セグメンテーション指標の影響を受けずに、アモーダル完了性能を分離する特化評価フレームワークも導入する。
関連論文リスト
- Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA [49.10341970643037]
アモーダルセグメンテーションは、隠蔽された領域の外観が利用できない場合でも、隠蔽された物体の完全な形状を推測することを目的としている。
現在のアモーダルセグメンテーション手法では、テキスト入力によってユーザと対話する能力が欠如している。
本稿では,隠蔽対象物の完全な非モーダル形状を予測することを目的とした,非モーダル推論セグメンテーション(amodal reasoning segmentation)という新しいタスクを提案する。
論文 参考訳(メタデータ) (2025-03-13T10:08:18Z) - Segment Anything, Even Occluded [35.150696061791805]
METHODOは、Segment Anything Model(SAM)を多目的マスクデコーダとして適応する新しいフレームワークである。
Amodal-LVISは,LVISデータセットとLVVISデータセットから得られた300K画像からなる大規模合成データセットである。
以上の結果から,COCOA-clsとD2SAベンチマークの両ベンチマークにおいて,新たに拡張されたデータセットでトレーニングした結果,ゼロショット性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-03-08T16:14:57Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - TAO-Amodal: A Benchmark for Tracking Any Object Amodally [41.5396827282691]
TAO-Amodalは,数千の動画シーケンスにおいて833の多様なカテゴリを特徴とする。
私たちのデータセットには、カメラフレームから部分的に外れたものを含む、可視または部分的に、あるいは完全に隠されたオブジェクトのための、テクスタモーダルおよびモーダルバウンディングボックスが含まれています。
論文 参考訳(メタデータ) (2023-12-19T18:58:40Z) - Robust Visual Tracking by Segmentation [103.87369380021441]
対象範囲を推定することは、視覚的物体追跡において根本的な課題となる。
高精度なセグメンテーションマスクを生成するセグメンテーション中心のトラッキングパイプラインを提案する。
我々のトラッカーは、シーンのターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。
論文 参考訳(メタデータ) (2022-03-21T17:59:19Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。