論文の概要: ImageBind-LLM: Multi-modality Instruction Tuning
- arxiv url: http://arxiv.org/abs/2309.03905v1
- Date: Thu, 7 Sep 2023 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:50:35.154731
- Title: ImageBind-LLM: Multi-modality Instruction Tuning
- Title(参考訳): ImageBind-LLM:マルチモードインストラクションチューニング
- Authors: Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao,
Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei
Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao
- Abstract要約: ImageBind-LLMは、ImageBindを介して大規模言語モデル(LLM)の多モードインストラクションチューニング手法である。
画像テキストアライメントトレーニングのみにより、オーディオ、3Dポイントクラウド、ビデオ、埋め込み空間演算に応答することができる。
- 参考スコア(独自算出の注目度): 70.05191504511188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ImageBind-LLM, a multi-modality instruction tuning method of large
language models (LLMs) via ImageBind. Existing works mainly focus on language
and image instruction tuning, different from which, our ImageBind-LLM can
respond to multi-modality conditions, including audio, 3D point clouds, video,
and their embedding-space arithmetic by only image-text alignment training.
During training, we adopt a learnable bind network to align the embedding space
between LLaMA and ImageBind's image encoder. Then, the image features
transformed by the bind network are added to word tokens of all layers in
LLaMA, which progressively injects visual instructions via an attention-free
and zero-initialized gating mechanism. Aided by the joint embedding of
ImageBind, the simple image-text training enables our model to exhibit superior
multi-modality instruction-following capabilities. During inference, the
multi-modality inputs are fed into the corresponding ImageBind encoders, and
processed by a proposed visual cache model for further cross-modal embedding
enhancement. The training-free cache model retrieves from three million image
features extracted by ImageBind, which effectively mitigates the
training-inference modality discrepancy. Notably, with our approach,
ImageBind-LLM can respond to instructions of diverse modalities and demonstrate
significant language generation quality. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.
- Abstract(参考訳): ImageBind-LLMは,大規模言語モデル(LLM)のマルチモーダル・インストラクション・チューニング手法である。
既存の作業は主に言語とイメージのチューニングに重点を置いており、それとは違って、ImageBind-LLMは、音声、3Dポイントクラウド、ビデオ、および画像テキストアライメントトレーニングのみによる埋め込み空間演算を含むマルチモーダルな条件に対応できる。
トレーニング中、LLaMAとImageBindの画像エンコーダの埋め込み空間を整列するために学習可能なバインドネットワークを採用する。
次に、バインドネットワークによって変換された画像特徴をLLaMAのすべてのレイヤのワードトークンに追加し、無注意かつゼロ初期化ゲーティング機構を介して視覚的指示を段階的に注入する。
ImageBindの組込みにより、簡単な画像テキストトレーニングにより、より優れたマルチモード命令追従能力が得られる。
推論中、マルチモーダル入力は対応するImageBindエンコーダに入力され、提案したビジュアルキャッシュモデルにより処理され、さらなるクロスモーダル埋め込み拡張を行う。
トレーニングフリーキャッシュモデルは、ImageBindによって抽出された300万の画像特徴から抽出される。
特に,我々のアプローチでは,imagebind-llmは多様なモダリティの指示に応答し,重要な言語生成品質を示すことができる。
コードはhttps://github.com/OpenGVLab/LLaMA-Adapterで公開されている。
関連論文リスト
- ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - The CLIP Model is Secretly an Image-to-Prompt Converter [26.92989288717742]
本稿は,CLIPモデルが安定拡散で利用されるように,画像のテキストプロンプトへの即時変換機能を備えていることを実証する。
このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
論文 参考訳(メタデータ) (2023-05-22T04:52:12Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。