論文の概要: Tracking Any Object Amodally
- arxiv url: http://arxiv.org/abs/2312.12433v2
- Date: Tue, 23 Jan 2024 18:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:28:58.874279
- Title: Tracking Any Object Amodally
- Title(参考訳): 任意のオブジェクトをAmodallyで追跡する
- Authors: Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan
- Abstract要約: TAO-Amodalベンチマークを導入し、数千の動画シーケンスに880の多様なカテゴリを特徴付ける。
私たちのデータセットには、部分的にフレーム外であるオブジェクトを含む、可視および隠蔽オブジェクトのためのアモーダルおよびモーダルバウンディングボックスが含まれています。
TAO-Amodal上での閉塞物体の検出・追跡における3.3%と1.6%の改善を実現した。
- 参考スコア(独自算出の注目度): 48.68480442441279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal perception, the ability to comprehend complete object structures from
partial visibility, is a fundamental skill, even for infants. Its significance
extends to applications like autonomous driving, where a clear understanding of
heavily occluded objects is essential. However, modern detection and tracking
algorithms often overlook this critical capability, perhaps due to the
prevalence of modal annotations in most datasets. To address the scarcity of
amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse
categories in thousands of video sequences. Our dataset includes amodal and
modal bounding boxes for visible and occluded objects, including objects that
are partially out-of-frame. To enhance amodal tracking with object permanence,
we leverage a lightweight plug-in module, the amodal expander, to transform
standard, modal trackers into amodal ones through fine-tuning on a few hundred
video sequences with data augmentation. We achieve a 3.3\% and 1.6\%
improvement on the detection and tracking of occluded objects on TAO-Amodal.
When evaluated on people, our method produces dramatic improvements of 2x
compared to state-of-the-art modal baselines.
- Abstract(参考訳): 部分的な視界から完全な物体構造を理解する能力であるアモーダル知覚は、幼児にとっても基本的な技術である。
その重要性は、密閉された物体の明確な理解が不可欠である自律運転のような応用にまで及ぶ。
しかし、現代の検出と追跡アルゴリズムは、おそらくほとんどのデータセットにおけるモダルアノテーションの普及により、この重要な能力を見落としていることが多い。
amodalデータの不足に対処するために,我々はtao-amodalベンチマークを紹介する。
私たちのデータセットには、部分的にフレーム外であるオブジェクトを含む、可視およびoccludedオブジェクトのためのamodalおよびmodalバウンディングボックスが含まれています。
オブジェクトの永続性によるamodalトラッキングを強化するために、軽量プラグインモジュールであるamodal expanderを利用して、データ拡張による数百のビデオシーケンスの微調整を行い、標準のmodalトラッカをamodalトラッカに変換する。
TAO-Amodal上での閉塞物体の検出・追跡における3.3\%および1.6\%の改善を実現した。
人に対して評価すると,最先端のモダルベースラインに比べて2倍の劇的な改善が得られた。
関連論文リスト
- Amodal Ground Truth and Completion in the Wild [92.36449676571237]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、アモーダル完了評価ベンチマーク、MP3D-Amodalを構築するために使用される。
提案手法は,Amodalセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - AmodalSynthDrive: A Synthetic Amodal Perception Dataset for Autonomous
Driving [10.928470926399566]
マルチタスク・マルチモーダル・アモーダル認識データセットであるAmodal SynthDriveを紹介する。
このデータセットは、150のドライブシーケンスに対して、マルチビューカメライメージ、3Dバウンディングボックス、LiDARデータ、およびオドメトリーを提供する。
Amodal SynthDriveは、導入されたアモーダル深度推定を含む複数のアモーダルシーン理解タスクをサポートする。
論文 参考訳(メタデータ) (2023-09-12T19:46:15Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Amodal Intra-class Instance Segmentation: Synthetic Datasets and
Benchmark [17.6780586288079]
本稿では、画像アモーダル完了タスクのための2つの新しいアモーダルデータセットを提案する。
また,アモーダル・インスタンス・セグメンテーションのための事前レイヤを持つ点教師付きスキームを提案する。
実験により、我々の弱教師付きアプローチはSOTAの完全教師付き手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-12T07:28:36Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - Amodal Cityscapes: A New Dataset, its Generation, and an Amodal Semantic
Segmentation Challenge Baseline [38.8592627329447]
本稿では,アモーダルなセマンティックセグメンテーションの課題を考察し,アモーダルなセマンティックセグメンテーションを訓練するためのデータセットを生成する汎用的な方法を提案する。
この手法を用いて、自動車環境認識におけるアモーダルなセマンティックセグメンテーションの適用性を示すアモーダルなCityscapesデータセットを生成する。
論文 参考訳(メタデータ) (2022-06-01T14:38:33Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。