論文の概要: Language Driven Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2411.16072v1
- Date: Mon, 25 Nov 2024 03:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:38.175301
- Title: Language Driven Occupancy Prediction
- Title(参考訳): 言語駆動の職業予測
- Authors: Zhu Yu, Bowen Pang, Lizhe Liu, Runmin Zhang, Qihao Peng, Maochun Luo, Sheng Yang, Mingxia Chen, Si-Yuan Cao, Hui-Liang Shen,
- Abstract要約: オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げるための、実現可能な方法を提供します。
LOccは生成された言語基底の真実を効果的に利用し、3D言語ボリュームの学習をガイドする。
- 参考スコア(独自算出の注目度): 11.208411421996052
- License:
- Abstract: We introduce LOcc, an effective and generalizable framework for open-vocabulary occupancy (OVO) prediction. Previous approaches typically supervise the networks through coarse voxel-to-text correspondences via image features as intermediates or noisy and sparse correspondences from voxel-based model-view projections. To alleviate the inaccurate supervision, we propose a semantic transitive labeling pipeline to generate dense and finegrained 3D language occupancy ground truth. Our pipeline presents a feasible way to dig into the valuable semantic information of images, transferring text labels from images to LiDAR point clouds and utimately to voxels, to establish precise voxel-to-text correspondences. By replacing the original prediction head of supervised occupancy models with a geometry head for binary occupancy states and a language head for language features, LOcc effectively uses the generated language ground truth to guide the learning of 3D language volume. Through extensive experiments, we demonstrate that our semantic transitive labeling pipeline can produce more accurate pseudo-labeled ground truth, diminishing labor-intensive human annotations. Additionally, we validate LOcc across various architectures, where all models consistently outperform state-ofthe-art zero-shot occupancy prediction approaches on the Occ3D-nuScenes dataset. Notably, even based on the simpler BEVDet model, with an input resolution of 256 * 704,Occ-BEVDet achieves an mIoU of 20.29, surpassing previous approaches that rely on temporal images, higher-resolution inputs, or larger backbone networks. The code for the proposed method is available at https://github.com/pkqbajng/LOcc.
- Abstract(参考訳): オープン語彙占有率(OVO)予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
従来のアプローチでは、通常、ボクセルベースのモデルビュープロジェクションからの中間や雑音、スパース対応などの画像特徴を介して、粗いボクセルとテキストの対応を通してネットワークを監督する。
不正確な監視を緩和するため、我々は、密できめ細かな3D言語占有基盤真理を生成する意味的推移的ラベリングパイプラインを提案する。
我々のパイプラインは、画像の貴重な意味情報を掘り下げ、画像からLiDARポイントクラウドにテキストラベルを転送し、voxelに親しみ、正確なvoxel-to-text対応を確立するための実現可能な方法を提示している。
教師付き占有モデルの当初の予測ヘッドを二進的占有状態のための幾何学ヘッドと言語特徴のための言語ヘッドに置き換えることで、LOccは生成された言語基底真実を効果的に利用して、3D言語ボリュームの学習をガイドする。
広範な実験を通じて、我々の意味的推移的ラベリングパイプラインは、より正確な擬似ラベル付き地上真実を生成でき、労働集約的な人間のアノテーションを減少させることができることを実証した。
さらに、Occ3D-nuScenesデータセット上で、すべてのモデルが常に最先端のゼロショット占有率予測手法より優れているという、さまざまなアーキテクチャにわたるLOccを検証する。
特に、より単純なBEVDetモデルに基づいても、256 * 704,Occ-BEVDetの入力解像度は20.29mIoUに達し、時間的画像や高解像度の入力、より大きなバックボーンネットワークに依存する従来のアプローチを上回る。
提案されたメソッドのコードはhttps://github.com/pkqbajng/LOcc.orgで公開されている。
関連論文リスト
- PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation [10.856377349228927]
我々は,言語記述に整合した幾何学的事前情報を活用することにより,単眼深度推定の精度を高めることができると論じる。
本稿では,アフィン不変深度を推定するために,シーンと一致した画像とテキスト記述の両方を取り入れた事前学習されたテキスト・画像拡散モデルを用いて,事前拡散を提案する。
言語先行者は,モデルの注意を特定の領域に誘導し,ユーザの意図に合わせて3Dシーンを知覚するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-11-24T05:07:10Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - OVO: Open-Vocabulary Occupancy [12.596828397087085]
セマンティック占有予測は、自律エージェントが3D環境で安全に動作するための周囲の密集した幾何学と意味を推測することを目的としている。
既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。
本稿では,任意のクラスの意味的占有を予測できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy(OVO)を提案する。
論文 参考訳(メタデータ) (2023-05-25T15:07:25Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。