論文の概要: Leader360V: The Large-scale, Real-world 360 Video Dataset for Multi-task Learning in Diverse Environment
- arxiv url: http://arxiv.org/abs/2506.14271v1
- Date: Tue, 17 Jun 2025 07:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.381786
- Title: Leader360V: The Large-scale, Real-world 360 Video Dataset for Multi-task Learning in Diverse Environment
- Title(参考訳): Leader360V: マルチタスク学習のための大規模実世界の360度ビデオデータセット
- Authors: Weiming Zhang, Dingwen Xiao, Aobotao Dai, Yexin Liu, Tianbo Pan, Shiqi Wen, Lei Chen, Lin Wang,
- Abstract要約: Leader360Vは、インスタンスのセグメンテーションとトラッキングのための、最初の大規模なラベル付き実世界の360ビデオデータセットである。
私たちのデータセットは、屋内や都市環境から自然や動的な屋外のシーンまで、高いシーンの多様性を享受しています。
実験によると、Lead360Vは360度ビデオセグメンテーションとトラッキングのモデル性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 19.70383859926191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 360 video captures the complete surrounding scenes with the ultra-large field of view of 360X180. This makes 360 scene understanding tasks, eg, segmentation and tracking, crucial for appications, such as autonomous driving, robotics. With the recent emergence of foundation models, the community is, however, impeded by the lack of large-scale, labelled real-world datasets. This is caused by the inherent spherical properties, eg, severe distortion in polar regions, and content discontinuities, rendering the annotation costly yet complex. This paper introduces Leader360V, the first large-scale, labeled real-world 360 video datasets for instance segmentation and tracking. Our datasets enjoy high scene diversity, ranging from indoor and urban settings to natural and dynamic outdoor scenes. To automate annotation, we design an automatic labeling pipeline, which subtly coordinates pre-trained 2D segmentors and large language models to facilitate the labeling. The pipeline operates in three novel stages. Specifically, in the Initial Annotation Phase, we introduce a Semantic- and Distortion-aware Refinement module, which combines object mask proposals from multiple 2D segmentors with LLM-verified semantic labels. These are then converted into mask prompts to guide SAM2 in generating distortion-aware masks for subsequent frames. In the Auto-Refine Annotation Phase, missing or incomplete regions are corrected either by applying the SDR again or resolving the discontinuities near the horizontal borders. The Manual Revision Phase finally incorporates LLMs and human annotators to further refine and validate the annotations. Extensive user studies and evaluations demonstrate the effectiveness of our labeling pipeline. Meanwhile, experiments confirm that Leader360V significantly enhances model performance for 360 video segmentation and tracking, paving the way for more scalable 360 scene understanding.
- Abstract(参考訳): 360度ビデオは、360X180の超広視野で周囲のシーンを完全に捉えている。
これにより、360度シーン理解タスク、例えばセグメンテーションやトラッキングが、自律運転、ロボット工学などの応用に不可欠である。
しかし、最近のファンデーションモデルの出現により、コミュニティは、大規模なラベル付き現実世界データセットの欠如によって妨げられている。
これは、固有球面の性質、例えば極域の激しい歪み、および内容の不連続によって引き起こされ、アノテーションは高価だが複雑である。
本稿では,事例分割と追跡のための実世界の360度ビデオデータセットとして,最初の大規模ラベル付きビデオデータセットであるLead360Vを紹介する。
私たちのデータセットは、屋内や都市環境から自然や動的な屋外のシーンまで、高いシーンの多様性を享受しています。
アノテーションを自動化するために,事前学習した2Dセグメンタと大規模言語モデルを微調整してラベル付けを容易にする自動ラベリングパイプラインを設計する。
パイプラインは3つの新しい段階で動作する。
具体的には、初期アノテーションフェーズにおいて、複数の2次元セグメントからのオブジェクトマスクの提案とLLMの検証されたセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなラベルを組み合わせたセマンティック・アンド・ディストーション・リファインメント・モジュールを導入する。
その後、これらをマスクプロンプトに変換してSAM2を誘導し、その後のフレームの歪み認識マスクを生成する。
オートリファインアノテーションフェーズでは、SDRを再度適用するか、水平境界付近で不連続を解消することにより、欠落または不完全領域を補正する。
手動修正フェーズは、最終的にLSMと人間のアノテーションを組み込んで、アノテーションをさらに洗練し、検証する。
広範囲にわたるユーザ調査と評価により,ラベリングパイプラインの有効性が示された。
一方実験では、Lead360Vは360度ビデオセグメンテーションとトラッキングのモデル性能を大幅に向上させ、よりスケーラブルな360度シーン理解の道を開いた。
関連論文リスト
- AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting [15.177483700681377]
仮想現実からアーキテクチャビジュアライゼーションまで、アプリケーションには3次元のシーンインペイントが不可欠だ。
本稿では,ガウススプラッティングで表現された3次元シーンにおいて,高品質な物体の除去と穴埋めを可能にする新しい参照ベース手法であるAuraFusion360を提案する。
また,360-USIDは,地上の真実を表現した360degシーンの包括的データセットである。
論文 参考訳(メタデータ) (2025-02-07T18:59:55Z) - Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation [83.841877607646]
全方位ステレオ深度推定のための実世界のデータセットであるHelvipadを紹介する。
このデータセットは、3Dポイント雲を等方形画像に投影することで、正確な深度と不均質のラベルを含む。
標準画像と全方位画像のステレオ深度推定モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-11-27T13:34:41Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - 360VOTS: Visual Object Tracking and Segmentation in Omnidirectional Videos [16.372814014632944]
我々は全方向ビデオオブジェクトセグメンテーション(360VOS)と呼ばれる新しいコンポーネントを組み込んだ包括的なデータセットとベンチマークを提案する。
360VOSデータセットは、高密度のピクセルワイドマスクを伴い、290のシーケンスを含み、幅広いターゲットカテゴリをカバーする。
我々は最先端のアプローチをベンチマークし、提案した360度トラッキングフレームワークとトレーニングデータセットの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T07:54:53Z) - PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes [53.60876822010642]
粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて高品質なパノプティカルラベルを生成する新しいアプローチであるPanopticNeRF-360を提案する。
実験では,KITTI-360データセット上でのラベル転送方式に対するPanopticNeRF-360の最先端性能を実証した。
論文 参考訳(メタデータ) (2023-09-19T17:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。