論文の概要: Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- arxiv url: http://arxiv.org/abs/2410.12995v1
- Date: Wed, 16 Oct 2024 19:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:32.947668
- Title: Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- Title(参考訳): クラス非依存RGB-Dビデオセグメンテーションのための構成可能な身体データ生成
- Authors: Anthony Opipari, Aravindhan K Krishnan, Shreekant Gayaka, Min Sun, Cheng-Hao Kuo, Arnie Sen, Odest Chadwicke Jenkins,
- Abstract要約: 本稿では,異なる形状のロボット間での分類に依存しないビデオセグメンテーションを改善するために,大規模データセットを生成する手法を提案する。
汎用セグメンテーションデータに基づいて訓練されたビデオセグメンテーションモデルが、データ生成プロセスにロボットエンボディメントが組み込まれている場合、特定のロボットプラットフォームに対してより効果的であるかどうかを考察する。
- 参考スコア(独自算出の注目度): 17.106306341104357
- License:
- Abstract: This paper presents a method for generating large-scale datasets to improve class-agnostic video segmentation across robots with different form factors. Specifically, we consider the question of whether video segmentation models trained on generic segmentation data could be more effective for particular robot platforms if robot embodiment is factored into the data generation process. To answer this question, a pipeline is formulated for using 3D reconstructions (e.g. from HM3DSem) to generate segmented videos that are configurable based on a robot's embodiment (e.g. sensor type, sensor placement, and illumination source). A resulting massive RGB-D video panoptic segmentation dataset (MVPd) is introduced for extensive benchmarking with foundation and video segmentation models, as well as to support embodiment-focused research in video segmentation. Our experimental findings demonstrate that using MVPd for finetuning can lead to performance improvements when transferring foundation models to certain robot embodiments, such as specific camera placements. These experiments also show that using 3D modalities (depth images and camera pose) can lead to improvements in video segmentation accuracy and consistency. The project webpage is available at https://topipari.com/projects/MVPd
- Abstract(参考訳): 本稿では,異なる形状のロボット間での分類に依存しないビデオセグメンテーションを改善するために,大規模データセットを生成する手法を提案する。
具体的には,ジェネリックセグメンテーションデータに基づいてトレーニングされたビデオセグメンテーションモデルが,データ生成プロセスにロボットエンボディメントが組み込まれている場合,特定のロボットプラットフォームに対してより効果的であるかどうかを考察する。
この質問に答えるために、パイプラインは3D再構成(例えばHM3DSem)を使用して、ロボットのエンボディメント(例えばセンサタイプ、センサ配置、照明源)に基づいて構成可能なセグメンテーションされたビデオを生成するために定式化される。
ファンデーションとビデオセグメンテーションモデルとの広範なベンチマークのために、また、ビデオセグメンテーションにおけるエンボディメントに焦点を当てた研究をサポートするために、巨大なRGB-Dビデオパノプティクスセグメンテーションデータセット(MVPd)が導入された。
実験により, MVPdを微調整に使用すると, 特定のカメラ配置など, 基礎モデルを特定のロボット体に移動させる際の性能が向上することが示された。
これらの実験は、3Dモダリティ(深度画像とカメラポーズ)を使用することで、ビデオセグメンテーションの精度と一貫性が向上することを示した。
プロジェクトのWebページはhttps://topipari.com/projects/MVPdで公開されている。
関連論文リスト
- Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文 参考訳(メタデータ) (2024-12-27T17:42:29Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - HS3-Bench: A Benchmark and Strong Baseline for Hyperspectral Semantic Segmentation in Driving Scenarios [3.7498611358320733]
駆動シナリオにおけるセマンティックセグメンテーションの進捗を測定するための標準ベンチマークはない。
本稿では,HyperSpectral Semanticベンチマーク(HS3-Bench)を提案する。
3つの駆動シナリオデータセットからの注釈付きハイパースペクトル画像を組み合わせて、標準化されたメトリクス、実装、評価プロトコルを提供する。
論文 参考訳(メタデータ) (2024-09-17T14:00:49Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Video Prediction Models as General Visual Encoders [0.0]
研究者らは、映像予測モデルを一般的な視覚エンコーダとして使用し、重要な空間的・時間的情報をキャプチャする能力を活用することを提案する。
人間の視覚研究にインスパイアされたこの手法は、画像から動きを表す潜在空間を開発することを目的としている。
実験には、事前訓練されたビデオ生成モデルの適用、潜伏空間の分析、フォアグラウンド・バックグラウンド・セグメンテーションのためのカスタムデコーダのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-05-25T23:55:47Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。