論文の概要: X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D
Dense Captioning
- arxiv url: http://arxiv.org/abs/2203.00843v1
- Date: Wed, 2 Mar 2022 03:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:45:18.726205
- Title: X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D
Dense Captioning
- Title(参考訳): X-Trans2Cap:3次元ディエンスキャプションのためのトランスフォーマを用いたクロスモーダル知識伝達
- Authors: Zhihao Yuan, Xu Yan, Yinghong Liao, Yao Guo, Guanbin Li, Zhen Li,
Shuguang Cui
- Abstract要約: 3D高密度キャプションは、通常3DシーンをRGB-Dスキャンまたはポイントクラウドとして表現する3Dシーンにおいて、自然言語で個々のオブジェクトを記述することを目的としている。
本研究では,トランスフォーマーを用いた3次元高密度キャプション用X-Trans2Capを用いたクロスモーダルな知識伝達について検討し,シングルモーダル3Dキャプションの性能を効果的に向上させる。
- 参考スコア(独自算出の注目度): 71.36623596807122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D dense captioning aims to describe individual objects by natural language
in 3D scenes, where 3D scenes are usually represented as RGB-D scans or point
clouds. However, only exploiting single modal information, e.g., point cloud,
previous approaches fail to produce faithful descriptions. Though aggregating
2D features into point clouds may be beneficial, it introduces an extra
computational burden, especially in inference phases. In this study, we
investigate a cross-modal knowledge transfer using Transformer for 3D dense
captioning, X-Trans2Cap, to effectively boost the performance of single-modal
3D caption through knowledge distillation using a teacher-student framework. In
practice, during the training phase, the teacher network exploits auxiliary 2D
modality and guides the student network that only takes point clouds as input
through the feature consistency constraints. Owing to the well-designed
cross-modal feature fusion module and the feature alignment in the training
phase, X-Trans2Cap acquires rich appearance information embedded in 2D images
with ease. Thus, a more faithful caption can be generated only using point
clouds during the inference. Qualitative and quantitative results confirm that
X-Trans2Cap outperforms previous state-of-the-art by a large margin, i.e.,
about +21 and about +16 absolute CIDEr score on ScanRefer and Nr3D datasets,
respectively.
- Abstract(参考訳): 3dの高密度キャプションは、自然言語による個々のオブジェクトを3dシーンで表現することを目的としている。
しかし、ポイントクラウドのような単一のモーダル情報のみを活用すれば、以前のアプローチでは忠実な記述が得られない。
2d機能をポイントクラウドに集約することは有益かもしれないが、特に推論フェーズにおいて余分な計算負荷をもたらす。
本研究では,トランスフォーマーを用いた3次元高密度キャプション用X-Trans2Capを用いたクロスモーダルな知識伝達について検討し,教師学習フレームワークを用いた知識蒸留による単一モーダル3Dキャプションの性能向上を図る。
実際には、トレーニングフェーズの間、教師ネットワークは補助的な2Dモダリティを利用して、特徴整合性制約を通じてポイントクラウドのみを入力とする学生ネットワークを誘導する。
X-Trans2Capは、よく設計されたクロスモーダル機能融合モジュールとトレーニングフェーズにおける特徴アライメントにより、2D画像に埋め込まれたリッチな外観情報を容易に取得する。
したがって、より忠実なキャプションは、推論中にポイントクラウドのみを使用して生成される。
質的および定量的な結果から、x-trans2capは、scanreferとnr3dのデータセットにおいて、それぞれ約+21と約+16の絶対ciderスコアにおいて、以前の最先端を上回っています。
関連論文リスト
- Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Cross-Modal Information-Guided Network using Contrastive Learning for
Point Cloud Registration [17.420425069785946]
本稿では,ポイントクラウド登録のための新しいCross-Modal Information-Guided Network(CMIGNet)を提案する。
まず,点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
コントラスト学習戦略は2つあり、すなわち、コントラスト学習とクロスモーダルコントラスト学習が重なり合う。
論文 参考訳(メタデータ) (2023-11-02T12:56:47Z) - Intrinsic Image Decomposition Using Point Cloud Representation [13.771632868567277]
本稿では3次元クラウドデータを利用してアルベドとシェーディングマップを同時に推定するPoint Intrinsic Net(PoInt-Net)を紹介する。
PoInt-Netは効率的で、任意のサイズのポイントクラウドで一貫したパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-20T14:51:28Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image
Transformers Help 3D Representation Learning? [30.59796205121887]
2次元画像や自然言語で事前訓練された基礎変換器は、自己教師型3次元表現学習において、クロスモーダル教師としてのオートエンコーダ(ACT)を訓練することで、自己指導型3次元表現学習を支援することができることを示す。
我々のACT事前訓練された3D学習者は、様々なダウンストリームベンチマーク、例えばScanObjectNNにおける88.21%の全体的な精度で最先端の一般化能力を達成する。
論文 参考訳(メタデータ) (2022-12-16T07:46:53Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。