論文の概要: UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them All
- arxiv url: http://arxiv.org/abs/2403.12532v1
- Date: Tue, 19 Mar 2024 08:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:52:48.457679
- Title: UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them All
- Title(参考訳): UniBind:LLMの拡張された統一とバランスの取れた表現空間
- Authors: Yuanhuiyi Lyu, Xu Zheng, Jiazhou Zhou, Lin Wang,
- Abstract要約: 柔軟で効率的なUniBindを提案し、7つの様相の統一表現空間を学習する。
UniBindはすべてのCLIPスタイルのモデルよりも柔軟なアプリケーションに優れており、優れたパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 7.797154022794006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present UniBind, a flexible and efficient approach that learns a unified representation space for seven diverse modalities-- images, text, audio, point cloud, thermal, video, and event data. Existing works, eg., ImageBind, treat the image as the central modality and build an image-centered representation space; however, the space may be sub-optimal as it leads to an unbalanced representation space among all modalities. Moreover, the category names are directly used to extract text embeddings for the downstream tasks, making it hardly possible to represent the semantics of multi-modal data. The 'out-of-the-box' insight of our UniBind is to make the alignment center modality-agnostic and further learn a unified and balanced representation space, empowered by the large language models (LLMs). UniBind is superior in its flexible application to all CLIP-style models and delivers remarkable performance boosts. To make this possible, we 1) construct a knowledge base of text embeddings with the help of LLMs and multi-modal LLMs; 2) adaptively build LLM-augmented class-wise embedding center on top of the knowledge base and encoded visual embeddings; 3) align all the embeddings to the LLM-augmented embedding center via contrastive learning to achieve a unified and balanced representation space. UniBind shows strong zero-shot recognition performance gains over prior arts by an average of 6.36%. Finally, we achieve new state-of-the-art performance, eg., a 6.75% gain on ImageNet, on the multi-modal fine-tuning setting while reducing 90% of the learnable parameters.
- Abstract(参考訳): UniBindは、画像、テキスト、オーディオ、ポイントクラウド、サーマル、ビデオ、イベントデータという7つの異なるモードの統一表現空間を学習する、柔軟で効率的なアプローチである。
既存の作品など。
ImageBindは、イメージを中心モダリティとして扱い、イメージ中心の表現空間を構築するが、すべてのモダリティの非均衡表現空間につながるため、その空間は準最適であるかもしれない。
さらに、カテゴリ名は、下流タスクのテキスト埋め込みを抽出するために直接使用されるため、マルチモーダルデータのセマンティクスを表現できない。
UniBindの'out-of-the-box'の洞察は、アライメントセンターをモダリティに依存しないものにし、さらに大きな言語モデル(LLM)によって強化された統一されたバランスの取れた表現空間を学習することです。
UniBindはすべてのCLIPスタイルのモデルよりも柔軟なアプリケーションに優れており、優れたパフォーマンス向上を実現している。
これを可能にするために、私たちは
1) LLM とマルチモーダル LLM の助けを借りて,テキスト埋め込みの知識基盤を構築する。
2) 知識基盤の上にLLMを付加したクラスワイド埋め込みセンターを適応的に構築し, 視覚的埋め込みを符号化する。
3) コントラスト学習により, 埋め込みをLLM拡張埋め込みセンタに整列させ, 統一的かつバランスの取れた表現空間を実現する。
UniBindは、先行技術よりも平均して6.36%のゼロショット認識性能が向上している。
最後に、最新のパフォーマンス、例えば、新しいパフォーマンスを実現します。
学習可能なパラメータの90%を削減しつつ、マルチモーダルな微調整設定でImageNetが6.75%向上した。
関連論文リスト
- Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - ImageBind-LLM: Multi-modality Instruction Tuning [70.05191504511188]
ImageBind-LLMは、ImageBindを介して大規模言語モデル(LLM)の多モードインストラクションチューニング手法である。
画像テキストアライメントトレーニングのみにより、オーディオ、3Dポイントクラウド、ビデオ、埋め込み空間演算に応答することができる。
論文 参考訳(メタデータ) (2023-09-07T17:59:45Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。