論文の概要: Propagating Semantic Labels in Video Data
- arxiv url: http://arxiv.org/abs/2310.00783v1
- Date: Sun, 1 Oct 2023 20:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:58:07.501957
- Title: Propagating Semantic Labels in Video Data
- Title(参考訳): ビデオデータにおける意味ラベルの伝播
- Authors: David Balaban, Justin Medich, Pranay Gosar, Justin Hart
- Abstract要約: 本研究では,映像中のオブジェクトのセグメンテーションを行う手法を提案する。
ビデオのフレームでオブジェクトが見つかると、セグメントは将来のフレームに伝達される。
この方法はSAMとStructure from Motionを組み合わせることで機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic Segmentation combines two sub-tasks: the identification of
pixel-level image masks and the application of semantic labels to those masks.
Recently, so-called Foundation Models have been introduced; general models
trained on very large datasets which can be specialized and applied to more
specific tasks. One such model, the Segment Anything Model (SAM), performs
image segmentation. Semantic segmentation systems such as CLIPSeg and MaskRCNN
are trained on datasets of paired segments and semantic labels. Manual labeling
of custom data, however, is time-consuming. This work presents a method for
performing segmentation for objects in video. Once an object has been found in
a frame of video, the segment can then be propagated to future frames; thus
reducing manual annotation effort. The method works by combining SAM with
Structure from Motion (SfM). The video input to the system is first
reconstructed into 3D geometry using SfM. A frame of video is then segmented
using SAM. Segments identified by SAM are then projected onto the the
reconstructed 3D geometry. In subsequent video frames, the labeled 3D geometry
is reprojected into the new perspective, allowing SAM to be invoked fewer
times. System performance is evaluated, including the contributions of the SAM
and SfM components. Performance is evaluated over three main metrics:
computation time, mask IOU with manual labels, and the number of tracking
losses. Results demonstrate that the system has substantial computation time
improvements over human performance for tracking objects over video frames, but
suffers in performance.
- Abstract(参考訳): セマンティックセグメンテーションは、ピクセルレベルの画像マスクの識別とそれらのマスクへのセマンティックラベルの適用という2つのサブタスクを組み合わせる。
近年、ファウンデーション・モデル(Foundation Models)と呼ばれる、非常に大きなデータセットで訓練された一般的なモデルが導入された。
そのようなモデルの1つ、SAM(Segment Anything Model)は、イメージセグメンテーションを実行する。
clipseg や maskrcnn のような意味セグメンテーションシステムは、ペアセグメンテーションと意味ラベルのデータセットで訓練される。
しかし、カスタムデータのマニュアルラベリングには時間がかかる。
本稿では,映像中のオブジェクトのセグメンテーションを行う方法を提案する。
ビデオのフレームでオブジェクトが見つかると、セグメントは将来のフレームに伝達され、手作業によるアノテーションの労力が削減される。
この方法はSAMとStructure from Motion (SfM)を組み合わせることで機能する。
システムに入力された映像は、まずSfMを用いて3次元形状に再構成される。
ビデオのフレームはSAMを使ってセグメント化される。
samによって識別されたセグメントは、再構成された3dジオメトリに投影される。
その後のビデオフレームでは、ラベル付き3dジオメトリが新しい視点に再投影され、samはより少ない回数で呼び出される。
SAMおよびSfMコンポーネントのコントリビューションを含むシステムパフォーマンスを評価する。
パフォーマンスは、計算時間、手動ラベル付きIOUマスク、トラッキング損失数という3つの主要な指標で評価される。
その結果、ビデオフレーム上のオブジェクトを追跡する人間の性能よりも、計算時間が大幅に改善されるが、性能に支障をきたすことがわかった。
関連論文リスト
- When SAM2 Meets Video Shadow and Mirror Detection [3.3993877661368757]
本研究では,3つのビデオセグメンテーションにおけるセグメンテーションモデル2(SAM2)の有効性を評価する。
具体的には、地上の真理点またはマスクプロンプトを用いて、最初のフレームを初期化し、その後のフレームに対応するマスクを予測する。
実験の結果,特にポイントプロンプトを用いた場合,SAM2の性能は最適以下であることが示唆された。
論文 参考訳(メタデータ) (2024-12-26T17:35:20Z) - Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree [79.26409013413003]
SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
論文 参考訳(メタデータ) (2024-10-21T17:59:19Z) - Segment Any Mesh: Zero-shot Mesh Part Segmentation via Lifting Segment Anything 2 to 3D [1.6427658855248815]
メッシュ部分分割の新しいゼロショット手法であるSegment Any Mesh (SAMesh)を提案する。
SAMeshはマルチモーダルレンダリングと2D-to-3Dリフトという2つのフェーズで動作する。
提案手法を,頑健でよく評価された形状解析手法であるShapeDiamと比較し,本手法が性能に匹敵するか否かを示す。
論文 参考訳(メタデータ) (2024-08-24T22:05:04Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。
そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:52:59Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。