論文の概要: Point-In-Context: Understanding Point Cloud via In-Context Learning
- arxiv url: http://arxiv.org/abs/2404.12352v1
- Date: Thu, 18 Apr 2024 17:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 11:52:23.161981
- Title: Point-In-Context: Understanding Point Cloud via In-Context Learning
- Title(参考訳): ポイント・イン・コンテキスト:イン・コンテキスト学習によるポイント・クラウド理解
- Authors: Mengyuan Liu, Zhongbin Fang, Xia Li, Joachim M. Buhmann, Xiangtai Li, Chen Change Loy,
- Abstract要約: In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。
マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。
In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
- 参考スコア(独自算出の注目度): 67.20277182808992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of large-scale models trained on diverse datasets, in-context learning has emerged as a promising paradigm for multitasking, notably in natural language processing and image processing. However, its application in 3D point cloud tasks remains largely unexplored. In this work, we introduce Point-In-Context (PIC), a novel framework for 3D point cloud understanding via in-context learning. We address the technical challenge of effectively extending masked point modeling to 3D point clouds by introducing a Joint Sampling module and proposing a vanilla version of PIC called Point-In-Context-Generalist (PIC-G). PIC-G is designed as a generalist model for various 3D point cloud tasks, with inputs and outputs modeled as coordinates. In this paradigm, the challenging segmentation task is achieved by assigning label points with XYZ coordinates for each category; the final prediction is then chosen based on the label point closest to the predictions. To break the limitation by the fixed label-coordinate assignment, which has poor generalization upon novel classes, we propose two novel training strategies, In-Context Labeling and In-Context Enhancing, forming an extended version of PIC named Point-In-Context-Segmenter (PIC-S), targeting improving dynamic context labeling and model training. By utilizing dynamic in-context labels and extra in-context pairs, PIC-S achieves enhanced performance and generalization capability in and across part segmentation datasets. PIC is a general framework so that other tasks or datasets can be seamlessly introduced into our PIC through a unified data format. We conduct extensive experiments to validate the versatility and adaptability of our proposed methods in handling a wide range of tasks and segmenting multi-datasets. Our PIC-S is capable of generalizing unseen datasets and performing novel part segmentation by customizing prompts.
- Abstract(参考訳): 多様なデータセットでトレーニングされた大規模モデルの出現に伴い、自然言語処理や画像処理など、マルチタスクのための有望なパラダイムとして、コンテキスト内学習が登場している。
しかし、3Dポイントのクラウドタスクにおけるその応用は、まだほとんど探索されていない。
本研究では,PIC(Point-In-Context)という,コンテキスト内学習による3Dポイントクラウド理解のための新しいフレームワークを紹介する。
マスク付き点モデリングを3次元点群に効果的に拡張するための技術的課題として,ジョイントサンプリングモジュールを導入し,PICのバニラバージョンであるPoint-In-Context-Generalist(PIC-G)を提案する。
PIC-Gは、様々な3Dポイントクラウドタスクの汎用モデルとして設計されており、入力と出力は座標としてモデル化されている。
このパラダイムでは、各カテゴリにXYZ座標をラベル点に割り当てることで、挑戦的なセグメンテーションタスクが達成され、最終的な予測は予測に最も近いラベル点に基づいて選択される。
In-Context Labeling と In-Context Enhancing という2つの新しいトレーニング戦略を提案し,PIC の拡張版である Point-In-Context-Segmenter (PIC-S) を作成した。
動的インコンテキストラベルと余分なインコンテキストペアを利用することで、PIC-Sは部分セグメンテーションデータセットにおけるパフォーマンスと一般化の強化を実現する。
PICは一般的なフレームワークなので、他のタスクやデータセットを統一されたデータフォーマットでPICにシームレスに導入できます。
提案手法の汎用性と適応性を検証するため,広範囲なタスクの処理や複数データセットのセグメンテーションを行うための広範囲な実験を行った。
我々のPIC-Sは、未知のデータセットを一般化し、プロンプトをカスタマイズすることで、新しい部分セグメンテーションを実行することができる。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Explore In-Context Learning for 3D Point Cloud Understanding [71.20912026561484]
我々は,特に3Dポイントクラウドにおけるコンテキスト内学習のために設計された,ポイント・イン・コンテキストという新しいフレームワークを紹介した。
一般点サンプリング演算子とタンデムで協調して動作するように慎重に設計したJoint Smplingモジュールを提案する。
提案手法の汎用性と適応性を検証するため,幅広いタスクを扱うための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-14T17:53:21Z) - Point-GCC: Universal Self-supervised 3D Scene Pre-training via
Geometry-Color Contrast [9.14535402695962]
点雲によって提供される幾何学と色情報は、3Dシーンの理解に不可欠である。
我々はGeometry-Color Contrast (Point-GCC) を用いたユニバーサル3次元シーン事前学習フレームワークを提案する。
ポイントGCCは、シムズネットワークを用いて幾何学と色情報を整列する。
論文 参考訳(メタデータ) (2023-05-31T07:44:03Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - CLR-GAM: Contrastive Point Cloud Learning with Guided Augmentation and
Feature Mapping [12.679625717350113]
本稿では、効率的な動的探索戦略のためのガイド拡張(GA)を備えた対照的な学習ベースのフレームワークであるCLR-GAMを提案する。
提案手法がシミュレーションおよび実世界の3Dポイントクラウドデータセット上で最先端のパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-28T04:38:52Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。