論文の概要: ViT-Lens: Towards Omni-modal Representations
- arxiv url: http://arxiv.org/abs/2311.16081v2
- Date: Tue, 26 Mar 2024 13:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 00:21:53.206383
- Title: ViT-Lens: Towards Omni-modal Representations
- Title(参考訳): ViT-Lens:Omni-modal Representationを目指して
- Authors: Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao, Dylan Sun, Yuying Ge, Ying Shan, Mike Zheng Shou,
- Abstract要約: ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
- 参考スコア(独自算出の注目度): 64.66508684336614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aiming to advance AI agents, large foundation models significantly improve reasoning and instruction execution, yet the current focus on vision and language neglects the potential of perceiving diverse modalities in open-world environments. However, the success of data-driven vision and language models is costly or even infeasible to be reproduced for rare modalities. In this paper, we present ViT-Lens-2 that facilitates efficient omni-modal representation learning by perceiving novel modalities with a pretrained ViT and aligning them to a pre-defined space. Specifically, the modality-specific lens is tuned to project any-modal signals to an intermediate embedding space, which are then processed by a strong ViT with pre-trained visual knowledge. The encoded representations are optimized toward aligning with the modal-independent space, pre-defined by off-the-shelf foundation models. ViT-Lens-2 provides a unified solution for representation learning of increasing modalities with two appealing advantages: (i) Unlocking the great potential of pretrained ViTs to novel modalities effectively with efficient data regime; (ii) Enabling emergent downstream capabilities through modality alignment and shared ViT parameters. We tailor ViT-Lens-2 to learn representations for 3D point cloud, depth, audio, tactile and EEG, and set new state-of-the-art results across various understanding tasks, such as zero-shot classification. By seamlessly integrating ViT-Lens-2 into Multimodal Foundation Models, we enable Any-modality to Text and Image Generation in a zero-shot manner. Code and models are available at https://github.com/TencentARC/ViT-Lens.
- Abstract(参考訳): 先進的なAIエージェントを目指すため、大規模な基盤モデルは推論と命令実行を大幅に改善するが、現在のビジョンと言語へのフォーカスは、オープンワールド環境における多様なモダリティを知覚する可能性を無視している。
しかし、データ駆動ビジョンと言語モデルの成功は、稀なモダリティのために複製されるのに費用がかかるか、あるいは不可能である。
本稿では,VT-Lens-2について,事前学習したVTで新しいモダリティを知覚し,それらを事前定義された空間に整列させることにより,効率的なOmni-Modal表現学習を容易にする。
具体的には、モダリティ特異的レンズは任意のモーダル信号を中間埋め込み空間に投影するように調整され、その後、トレーニング済みの視覚知識を持つ強力なViTによって処理される。
符号化された表現は、オフザシェルフ基礎モデルによって事前に定義された、モーダル非依存空間との整合性に最適化される。
ViT-Lens-2は、2つの魅力的な利点を持つモダリティ増加の表現学習のための統一されたソリューションを提供する。
一 効率的なデータ体制により、新規なモダリティに事前訓練されたViTの大きな可能性を効果的に解き放つこと。
(II)モダリティアライメントと共有VTパラメータによる創発的下流機能の実現。
我々は3Dポイントクラウド、深度、オーディオ、触覚、脳波の表現を学習するためにViT-Lens-2を調整し、ゼロショット分類などの様々な理解タスクに新しい最先端結果を設定する。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成に対するAny-modalityをゼロショットで可能にする。
コードとモデルはhttps://github.com/TencentARC/ViT-Lens.comで公開されている。
関連論文リスト
- VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation [45.52926475981602]
VILA-Uは、ビデオ、画像、言語理解、生成を統合する統一基盤モデルである。
VILA-Uは、両方のタスクに1つの自動回帰的な次世代予測フレームワークを使用している。
論文 参考訳(メタデータ) (2024-09-06T17:49:56Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。