論文の概要: Molecule-Space: Free Lunch in Unified Multimodal Space via Knowledge Fusion
- arxiv url: http://arxiv.org/abs/2405.04883v1
- Date: Wed, 8 May 2024 08:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:04:15.593192
- Title: Molecule-Space: Free Lunch in Unified Multimodal Space via Knowledge Fusion
- Title(参考訳): 分子空間:知識融合による統一マルチモーダル空間の自由ランチ
- Authors: Zehan Wang, Ziang Zhang, Xize Cheng, Rongjie Huang, Luping Liu, Zhenhui Ye, Haifeng Huang, Yang Zhao, Tao Jin, Peng Gao, Zhou Zhao,
- Abstract要約: マルチモーダル表現空間を「分子」として扱う概念である分子空間を提案する。
我々は「分子宇宙反応」を通じて外部の専門家空間からの知識を統合する
結果のスペースは、9つのデータセットにわたる5つの下流タスクでImageBindを上回っている。
- 参考スコア(独自算出の注目度): 64.03178918148497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multi-model representation spaces are the foundation of multimodal understanding and generation. However, the billions of model parameters and catastrophic forgetting problems make it challenging to further enhance pre-trained unified spaces. In this work, we propose Molecule-Space, an idea that treats multimodal representation spaces as "molecules", and augments pre-trained unified space by integrating knowledge from extra expert spaces via "molecules space reactions". Specifically, we introduce two kinds of basic space reactions: 1) Space Displacement Reaction and 2) Space Combination Reaction. Based on these defined basic reactions, we design Complex Sequential & Parallel Reactions to effectively integrate multiple spaces simultaneously. Benefiting from the modularization concept, we further propose a coarse-to-fine customized inference strategy to flexibly adjust the enhanced unified space for different purposes. Experimentally, we fuse the audio-image-text space of ImageBind with the image-text and audio-text expert spaces. The resulting space outperforms ImageBind on 5 downstream tasks across 9 datasets. Moreover, via customized inference, it even surpasses the used image-text and audio-text expert spaces.
- Abstract(参考訳): 統一マルチモデル表現空間は、マルチモーダル理解と生成の基礎である。
しかし、何十億ものモデルパラメータと破滅的な忘れの問題により、事前訓練された統一空間をさらに強化することは困難である。
本研究では, マルチモーダル表現空間を「分子」として扱う概念である分子空間を提案し, 「分子空間反応」を通じて, 外部の専門家空間からの知識を統合することにより, 事前学習された統一空間を拡大する。
具体的には、基本的な宇宙反応を2種類導入する。
1) 空間変位反応と空間変位反応
2) 空間結合反応
これらの基本反応に基づいて、複数の空間を同時に効率的に統合する複素逐次・並列反応を設計する。
モジュラー化の概念を活かして、異なる目的のために拡張された統一空間を柔軟に調整する粗大なカスタマイズ推論戦略を提案する。
実験により,ImageBindの音声画像テキスト空間と画像テキストおよび音声テキスト専門家空間を融合する。
結果のスペースは、9つのデータセットにわたる5つの下流タスクでImageBindを上回っている。
さらに、カスタマイズされた推論によって、使用される画像テキストおよびオーディオテキスト専門家スペースを超越する。
関連論文リスト
- SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces [67.07083389543799]
我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。
全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。
実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
論文 参考訳(メタデータ) (2024-07-16T16:24:31Z) - UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them All [7.797154022794006]
柔軟で効率的なUniBindを提案し、7つの様相の統一表現空間を学習する。
UniBindはすべてのCLIPスタイルのモデルよりも柔軟なアプリケーションに優れており、優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-19T08:09:27Z) - Contrastive Sequential Interaction Network Learning on Co-Evolving
Riemannian Spaces [44.175106851212874]
本稿では,Riemann空間を共進化させるCSINCEREにおける逐次相互作用ネットワーク学習のための新しいコントラストモデルを提案する。
CSINCEREでは、表現空間を横断するメッセージパッシングのためのクロススペースアグリゲーションを定式化する。
また、時間とともに空間の進化をモデル化するためのリッチ曲率に基づくニューラル曲率推定器を設計する。
論文 参考訳(メタデータ) (2024-01-02T15:19:01Z) - Beyond Subspace Isolation: Many-to-Many Transformer for Light Field
Image Super-resolution [5.277207972856879]
本稿では,光フィールド画像超解像処理のための新しいM2MTを提案する。
M2MTは、自己認識機構を実行する前に、空間部分空間内の角情報を集約する。
光フィールド画像内の全てのサブアパーチャ画像全体への完全なアクセスを可能にする。
論文 参考訳(メタデータ) (2024-01-01T12:48:23Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - P+: Extended Textual Conditioning in Text-to-Image Generation [50.823884280133626]
テキスト・ツー・イメージ・モデルでは$P+$と呼ばれる拡張テキスト・コンディショニング・スペースを導入します。
拡張空間は画像合成に対してより密接な制御と制御を提供することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
論文 参考訳(メタデータ) (2023-03-16T17:38:15Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。