論文の概要: OG: Equip vision occupancy with instance segmentation and visual
grounding
- arxiv url: http://arxiv.org/abs/2307.05873v1
- Date: Wed, 12 Jul 2023 01:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:40:13.765454
- Title: OG: Equip vision occupancy with instance segmentation and visual
grounding
- Title(参考訳): og: インスタンスのセグメンテーションと視覚の接地によるビジョンの占有
- Authors: Zichao Dong, Hang Ji, Weikun Zhang, Xufeng Huang, Junbo Chen
- Abstract要約: 職業予測タスクは、各ボクセルの幾何学的ラベルと意味的ラベルの両方の推測に焦点を当てる。
本稿では,バニラ占有型インスタンスセグメンテーション機能を備えた新しい手法であるOccupancy Grounding (OG)を提案する。
アプローチの鍵となるのは,(1)インスタンスクラスタリングにおける親和性フィールドの予測と(2)2Dインスタンスマスクと3D占有インスタンスの整列のための関連戦略である。
- 参考スコア(独自算出の注目度): 1.0260983653504128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction tasks focus on the inference of both geometry and
semantic labels for each voxel, which is an important perception mission.
However, it is still a semantic segmentation task without distinguishing
various instances. Further, although some existing works, such as
Open-Vocabulary Occupancy (OVO), have already solved the problem of open
vocabulary detection, visual grounding in occupancy has not been solved to the
best of our knowledge. To tackle the above two limitations, this paper proposes
Occupancy Grounding (OG), a novel method that equips vanilla occupancy instance
segmentation ability and could operate visual grounding in a voxel manner with
the help of grounded-SAM. Keys to our approach are (1) affinity field
prediction for instance clustering and (2) association strategy for aligning 2D
instance masks and 3D occupancy instances. Extensive experiments have been
conducted whose visualization results and analysis are shown below. Our code
will be publicly released soon.
- Abstract(参考訳): 占有予測タスクは、各voxelの幾何ラベルと意味ラベルの両方の推論にフォーカスしており、これは重要な知覚ミッションである。
しかし、様々なインスタンスを区別することなくセマンティックセグメンテーションタスクである。
さらに,open-vocabulary occupancy (ovo) のような既存の作品では,オープン語彙検出の問題をすでに解決しているが,視覚の接地は最善の知識では解決されていない。
この2つの制約に対処するため,本論文では,バニラ占有率のセグメンテーション能力を備え,接地SAMの助けを借りてボクセル方式で視覚的グラウンドディングを操作可能な,OG(Occupancy Grounding)を提案する。
提案手法の鍵は,(1)インスタンスクラスタリングにおける親和性フィールド予測と(2)2dインスタンスマスクと3d占有インスタンスの連携戦略である。
下記の可視化結果と分析結果を示す大規模な実験が実施されている。
私たちのコードはまもなく公開されます。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。