論文の概要: ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights
- arxiv url: http://arxiv.org/abs/2308.10185v2
- Date: Tue, 26 Mar 2024 13:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 01:20:23.361320
- Title: ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights
- Title(参考訳): ViT-Lens:3DインサイトによるOmni-Modal Explorationの開始
- Authors: Weixian Lei, Yixiao Ge, Jianfeng Zhang, Dylan Sun, Kun Yi, Ying Shan, Mike Zheng Shou,
- Abstract要約: ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
- 参考スコア(独自算出の注目度): 61.36309876889977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though the success of CLIP-based training recipes in vision-language models, their scalability to more modalities (e.g., 3D, audio, etc.) is limited to large-scale data, which is expensive or even inapplicable for rare modalities. In this paper, we present ViT-Lens that facilitates efficient omni-modal representation learning by perceiving novel modalities with a pretrained ViT and aligning to a pre-defined space. Specifically, the modality-specific lens is tuned to project multimodal signals to the shared embedding space, which are then processed by a strong ViT that carries pre-trained image knowledge. The encoded multimodal representations are optimized toward aligning with the modal-independent space, pre-defined by off-the-shelf foundation models. A well-trained lens with a ViT backbone has the potential to serve as one of these foundation models, supervising the learning of subsequent modalities. ViT-Lens provides a unified solution for representation learning of increasing modalities with two appealing benefits: (i) Exploiting the pretrained ViT across tasks and domains effectively with efficient data regime; (ii) Emergent downstream capabilities of novel modalities are demonstrated due to the modality alignment space. We evaluate ViT-Lens in the context of 3D as an initial verification. In zero-shot 3D classification, ViT-Lens achieves substantial improvements over previous state-of-the-art, showing 52.0% accuracy on Objaverse-LVIS, 87.4% on ModelNet40, and 60.6% on ScanObjectNN. Furthermore, we enable zero-shot 3D question-answering by simply integrating the trained 3D lens into the InstructBLIP model without any adaptation. We will release the results of ViT-Lens on more modalities in the near future.
- Abstract(参考訳): 視覚言語モデルにおけるCLIPベースのトレーニングレシピの成功にもかかわらず、よりモダリティ(例えば、3D、オーディオなど)へのスケーラビリティは大規模データに限定されており、これは高価で、稀なモダリティには適用できない。
本稿では、事前訓練されたVTで新しいモダリティを知覚し、予め定義された空間に整合させることにより、効率的なOmni-Modal表現学習を容易にするViT-Lensを提案する。
具体的には、モダリティ特異的レンズは、共有埋め込み空間にマルチモーダル信号を投影するように調整され、その後、トレーニング済みの画像知識を伝達する強力なViTによって処理される。
符号化されたマルチモーダル表現は、オフザシェルフ基礎モデルによって事前に定義されたモダル非依存空間との整合性に最適化される。
ViTバックボーンを備えたよく訓練されたレンズは、これらの基礎モデルの1つとして機能し、その後のモダリティの学習を監督する可能性がある。
ViT-Lensは、2つの魅力的な利点を持つモダリティ増加の表現学習のための統一されたソリューションを提供する。
一 効率的なデータ体制により、業務及び領域にまたがる訓練済みのViTを効果的に実施すること。
(II) 新しいモダリティの創発的な下流能力は、アライメント空間によって示される。
初期検証として3Dの文脈でViT-Lensを評価した。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善され、Objaverse-LVISでは52.0%、ModelNet40では87.4%、ScanObjectNNでは60.6%の精度で精度が向上した。
さらに、トレーニングされた3Dレンズを適応せずにインストラクトBLIPモデルに統合することで、ゼロショットの3D質問応答を可能にする。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。