論文の概要: Foundation Models for Amodal Video Instance Segmentation in Automated Driving
- arxiv url: http://arxiv.org/abs/2409.14095v1
- Date: Sat, 21 Sep 2024 10:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:33:25.729773
- Title: Foundation Models for Amodal Video Instance Segmentation in Automated Driving
- Title(参考訳): 自動走行におけるアモーダルビデオインスタンスセグメンテーションの基礎モデル
- Authors: Jasmin Breitenstein, Franz Jünger, Andreas Bär, Tim Fingscheidt,
- Abstract要約: 自動走行のためのアモーダルビデオインスタンスセグメンテーションについて検討する。
我々はSegment Anything Model(SAM)の広範な知識を活用する。
得られたS-AModal法は,アモーダルビデオインスタンスのセグメンテーションにおける最先端結果を実現する。
- 参考スコア(独自算出の注目度): 26.917931751530563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study amodal video instance segmentation for automated driving. Previous works perform amodal video instance segmentation relying on methods trained on entirely labeled video data with techniques borrowed from standard video instance segmentation. Such amodally labeled video data is difficult and expensive to obtain and the resulting methods suffer from a trade-off between instance segmentation and tracking performance. To largely solve this issue, we propose to study the application of foundation models for this task. More precisely, we exploit the extensive knowledge of the Segment Anything Model (SAM), while fine-tuning it to the amodal instance segmentation task. Given an initial video instance segmentation, we sample points from the visible masks to prompt our amodal SAM. We use a point memory to store those points. If a previously observed instance is not predicted in a following frame, we retrieve its most recent points from the point memory and use a point tracking method to follow those points to the current frame, together with the corresponding last amodal instance mask. This way, while basing our method on an amodal instance segmentation, we nevertheless obtain video-level amodal instance segmentation results. Our resulting S-AModal method achieves state-of-the-art results in amodal video instance segmentation while resolving the need for amodal video-based labels. Code for S-AModal is available at https://github.com/ifnspaml/S-AModal.
- Abstract(参考訳): 本研究では,自動走行のためのアモーダルビデオインスタンスセグメンテーションについて検討する。
従来の作業は、標準のビデオインスタンスセグメンテーションから借用した手法で、完全にラベル付けされたビデオデータに基づいて、アモーダルなビデオインスタンスセグメンテーションを実行する。
このようなアモーダルなラベル付きビデオデータは入手が困難でコストがかかり、結果として得られる手法は、インスタンスのセグメンテーションと追跡性能のトレードオフに悩まされる。
この問題を大幅に解決するため,本課題に対する基礎モデルの適用について検討する。
より正確には、Segment Anything Model(SAM)の広範な知識を活用しながら、それをアモーダルなインスタンスセグメンテーションタスクに微調整する。
初期ビデオインスタンスのセグメンテーションが与えられたら、目に見えるマスクから点をサンプリングして、アモーダルSAMを誘導します。
私たちはポイントメモリを使ってポイントを保存します。
先行観測されたインスタンスが次のフレームで予測されない場合、ポイントメモリから最新のポイントを取得し、そのポイントを現在のフレームに追従するポイントトラッキング手法と、対応する最後のアモーダル・インスタンスマスクを使用する。
このように、アモーダルなインスタンスセグメンテーションにメソッドを基盤付けながら、ビデオレベルのアモーダルなインスタンスセグメンテーション結果を得る。
得られたS-AModal法は,アモーダルビデオベースラベルの必要性を解消しつつ,アモーダルビデオインスタンスセグメンテーションの最先端化を実現する。
S-AModalのコードはhttps://github.com/ifnspaml/S-AModalで公開されている。
関連論文リスト
- Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Audio-Visual Instance Segmentation [14.10809424760213]
音声視覚インスタンスセグメンテーション(AVIS)と呼ばれる新しいマルチモーダルタスクを提案する。
AVISは、可聴ビデオ中の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することを目的としている。
AVISegという高品質なベンチマークを導入し、926の長ビデオで26のセマンティックカテゴリから90K以上のインスタンスマスクを含む。
論文 参考訳(メタデータ) (2023-10-28T13:37:52Z) - Coarse-to-Fine Amodal Segmentation with Shape Prior [52.38348188589834]
アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-31T15:56:29Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。