論文の概要: FreeBind: Free Lunch in Unified Multimodal Space via Knowledge Fusion
- arxiv url: http://arxiv.org/abs/2405.04883v2
- Date: Fri, 10 May 2024 07:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 11:22:39.478992
- Title: FreeBind: Free Lunch in Unified Multimodal Space via Knowledge Fusion
- Title(参考訳): FreeBind:知識融合による統一マルチモーダル空間におけるフリーランチ
- Authors: Zehan Wang, Ziang Zhang, Xize Cheng, Rongjie Huang, Luping Liu, Zhenhui Ye, Haifeng Huang, Yang Zhao, Tao Jin, Peng Gao, Zhou Zhao,
- Abstract要約: マルチモーダル表現空間を基本単位として扱うアイデアであるFreeBindを提案する。
我々は「空間結合」を介して外部の専門家空間からの知識を統合する
FreeBindは、9つのデータセットにわたる5つのオーディオ-画像-テキストダウンストリームタスクにおいて、ImageBindよりも優れています。
- 参考スコア(独自算出の注目度): 64.03178918148497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multi-model representation spaces are the foundation of multimodal understanding and generation. However, the billions of model parameters and catastrophic forgetting problems make it challenging to further enhance pre-trained unified spaces. In this work, we propose FreeBind, an idea that treats multimodal representation spaces as basic units, and freely augments pre-trained unified space by integrating knowledge from extra expert spaces via "space bonds". Specifically, we introduce two kinds of basic space bonds: 1) Space Displacement Bond and 2) Space Combination Bond. Based on these basic bonds, we design Complex Sequential & Parallel Bonds to effectively integrate multiple spaces simultaneously. Benefiting from the modularization concept, we further propose a coarse-to-fine customized inference strategy to flexibly adjust the enhanced unified space for different purposes. Experimentally, we bind ImageBind with extra image-text and audio-text expert spaces, resulting in three main variants: ImageBind++, InternVL_IB, and InternVL_IB++. These resulting spaces outperform ImageBind on 5 audio-image-text downstream tasks across 9 datasets. Moreover, via customized inference, it even surpasses the advanced audio-text and image-text expert spaces.
- Abstract(参考訳): 統一マルチモデル表現空間は、マルチモーダル理解と生成の基礎である。
しかし、何十億ものモデルパラメータと破滅的な忘れの問題により、事前訓練された統一空間をさらに強化することは困難である。
本研究では,マルチモーダル表現空間を基本単位として扱うアイデアであるFreeBindを提案する。
具体的には,2種類の基本空間結合を導入する。
1)空間変位ボンドと空間変位ボンド
2)スペースコンバレーションボンド。
これらの基本結合に基づいて、複数の空間を同時に効率的に統合する複素系列および並列結合を設計する。
モジュラー化の概念を活かして、異なる目的のために拡張された統一空間を柔軟に調整する粗大なカスタマイズ推論戦略を提案する。
ImageBind++、InternVL_IB、InternVL_IB++の3つの主な変種が存在する。
これらの結果の空間は、9つのデータセットにわたる5つのオーディオ-画像-テキストダウンストリームタスクにおいて、ImageBindよりも優れています。
さらに、カスタマイズされた推論により、高度なオーディオテキストおよび画像テキスト専門家スペースを超越する。
関連論文リスト
- SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces [67.07083389543799]
我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。
全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。
実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
論文 参考訳(メタデータ) (2024-07-16T16:24:31Z) - UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them All [7.797154022794006]
柔軟で効率的なUniBindを提案し、7つの様相の統一表現空間を学習する。
UniBindはすべてのCLIPスタイルのモデルよりも柔軟なアプリケーションに優れており、優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-19T08:09:27Z) - Contrastive Sequential Interaction Network Learning on Co-Evolving
Riemannian Spaces [44.175106851212874]
本稿では,Riemann空間を共進化させるCSINCEREにおける逐次相互作用ネットワーク学習のための新しいコントラストモデルを提案する。
CSINCEREでは、表現空間を横断するメッセージパッシングのためのクロススペースアグリゲーションを定式化する。
また、時間とともに空間の進化をモデル化するためのリッチ曲率に基づくニューラル曲率推定器を設計する。
論文 参考訳(メタデータ) (2024-01-02T15:19:01Z) - Beyond Subspace Isolation: Many-to-Many Transformer for Light Field
Image Super-resolution [5.277207972856879]
本稿では,光フィールド画像超解像処理のための新しいM2MTを提案する。
M2MTは、自己認識機構を実行する前に、空間部分空間内の角情報を集約する。
光フィールド画像内の全てのサブアパーチャ画像全体への完全なアクセスを可能にする。
論文 参考訳(メタデータ) (2024-01-01T12:48:23Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - P+: Extended Textual Conditioning in Text-to-Image Generation [50.823884280133626]
テキスト・ツー・イメージ・モデルでは$P+$と呼ばれる拡張テキスト・コンディショニング・スペースを導入します。
拡張空間は画像合成に対してより密接な制御と制御を提供することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
論文 参考訳(メタデータ) (2023-03-16T17:38:15Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。