論文の概要: Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- arxiv url: http://arxiv.org/abs/2410.12995v1
- Date: Wed, 16 Oct 2024 19:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:32.947668
- Title: Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- Title(参考訳): クラス非依存RGB-Dビデオセグメンテーションのための構成可能な身体データ生成
- Authors: Anthony Opipari, Aravindhan K Krishnan, Shreekant Gayaka, Min Sun, Cheng-Hao Kuo, Arnie Sen, Odest Chadwicke Jenkins,
- Abstract要約: 本稿では,異なる形状のロボット間での分類に依存しないビデオセグメンテーションを改善するために,大規模データセットを生成する手法を提案する。
汎用セグメンテーションデータに基づいて訓練されたビデオセグメンテーションモデルが、データ生成プロセスにロボットエンボディメントが組み込まれている場合、特定のロボットプラットフォームに対してより効果的であるかどうかを考察する。
- 参考スコア(独自算出の注目度): 17.106306341104357
- License:
- Abstract: This paper presents a method for generating large-scale datasets to improve class-agnostic video segmentation across robots with different form factors. Specifically, we consider the question of whether video segmentation models trained on generic segmentation data could be more effective for particular robot platforms if robot embodiment is factored into the data generation process. To answer this question, a pipeline is formulated for using 3D reconstructions (e.g. from HM3DSem) to generate segmented videos that are configurable based on a robot's embodiment (e.g. sensor type, sensor placement, and illumination source). A resulting massive RGB-D video panoptic segmentation dataset (MVPd) is introduced for extensive benchmarking with foundation and video segmentation models, as well as to support embodiment-focused research in video segmentation. Our experimental findings demonstrate that using MVPd for finetuning can lead to performance improvements when transferring foundation models to certain robot embodiments, such as specific camera placements. These experiments also show that using 3D modalities (depth images and camera pose) can lead to improvements in video segmentation accuracy and consistency. The project webpage is available at https://topipari.com/projects/MVPd
- Abstract(参考訳): 本稿では,異なる形状のロボット間での分類に依存しないビデオセグメンテーションを改善するために,大規模データセットを生成する手法を提案する。
具体的には,ジェネリックセグメンテーションデータに基づいてトレーニングされたビデオセグメンテーションモデルが,データ生成プロセスにロボットエンボディメントが組み込まれている場合,特定のロボットプラットフォームに対してより効果的であるかどうかを考察する。
この質問に答えるために、パイプラインは3D再構成(例えばHM3DSem)を使用して、ロボットのエンボディメント(例えばセンサタイプ、センサ配置、照明源)に基づいて構成可能なセグメンテーションされたビデオを生成するために定式化される。
ファンデーションとビデオセグメンテーションモデルとの広範なベンチマークのために、また、ビデオセグメンテーションにおけるエンボディメントに焦点を当てた研究をサポートするために、巨大なRGB-Dビデオパノプティクスセグメンテーションデータセット(MVPd)が導入された。
実験により, MVPdを微調整に使用すると, 特定のカメラ配置など, 基礎モデルを特定のロボット体に移動させる際の性能が向上することが示された。
これらの実験は、3Dモダリティ(深度画像とカメラポーズ)を使用することで、ビデオセグメンテーションの精度と一貫性が向上することを示した。
プロジェクトのWebページはhttps://topipari.com/projects/MVPdで公開されている。
関連論文リスト
- HS3-Bench: A Benchmark and Strong Baseline for Hyperspectral Semantic Segmentation in Driving Scenarios [3.7498611358320733]
駆動シナリオにおけるセマンティックセグメンテーションの進捗を測定するための標準ベンチマークはない。
本稿では,HyperSpectral Semanticベンチマーク(HS3-Bench)を提案する。
3つの駆動シナリオデータセットからの注釈付きハイパースペクトル画像を組み合わせて、標準化されたメトリクス、実装、評価プロトコルを提供する。
論文 参考訳(メタデータ) (2024-09-17T14:00:49Z) - ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Video Prediction Models as General Visual Encoders [0.0]
研究者らは、映像予測モデルを一般的な視覚エンコーダとして使用し、重要な空間的・時間的情報をキャプチャする能力を活用することを提案する。
人間の視覚研究にインスパイアされたこの手法は、画像から動きを表す潜在空間を開発することを目的としている。
実験には、事前訓練されたビデオ生成モデルの適用、潜伏空間の分析、フォアグラウンド・バックグラウンド・セグメンテーションのためのカスタムデコーダのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-05-25T23:55:47Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation [16.36110033895749]
本稿では,合成RGBビデオ,セマンティックラベル,深度情報,および運動情報を含むデータセットHabitatDynを提案する。
HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。
論文 参考訳(メタデータ) (2023-04-21T09:57:35Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。