Fugu-MT 論文翻訳(概要): OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

論文の概要: OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

arxiv url: http://arxiv.org/abs/2407.11895v1
Date: Tue, 16 Jul 2024 16:24:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 13:53:50.872940
Title: OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces
Title（参考訳）: OmniBind: 結合空間による大規模Omniマルチモーダル表現
Authors: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao,
Abstract要約: 我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
参考スコア（独自算出の注目度）: 67.07083389543799
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, human-computer interaction with various modalities has shown promising applications, like GPT-4o and Gemini. Given the foundational role of multimodal joint representation in understanding and generation pipelines, high-quality omni joint representations would be a step toward co-processing more diverse multimodal information. In this work, we present OmniBind, large-scale multimodal joint representation models ranging in scale from 7 billion to 30 billion parameters, which support 3D, audio, image, and language inputs. Due to the scarcity of data pairs across all modalities, instead of training large models from scratch, we propose remapping and binding the spaces of various pre-trained specialist models together. This approach enables "scaling up" by indirectly increasing the model parameters and the amount of seen data. To effectively integrate various spaces, we dynamically assign weights to different spaces by learning routers with two objectives: cross-modal overall alignment and language representation decoupling. Notably, since binding and routing spaces both only require lightweight networks, OmniBind is extremely training-efficient. Learning the largest 30B model requires merely unpaired unimodal data and approximately 3 days on a single 8-4090 node. Extensive experiments demonstrate the versatility and superiority of OmniBind as an omni representation model, highlighting its great potential for diverse applications, such as any-query and composable multimodal understanding.
Abstract（参考訳）: 近年, GPT-4o や Gemini など,様々なモダリティとの人間とコンピュータの相互作用が期待されている。理解と生成パイプラインにおけるマルチモーダルな関節表現の基本的な役割を考えると、高品質なオムニな関節表現はより多様なマルチモーダル情報を処理するためのステップとなる。本稿では,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindについて述べる。全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。このアプローチは、モデルパラメータと見るデータ量を間接的に増加させることで、"スケールアップ"を可能にする。様々な空間を効果的に統合するために、我々は異なる空間に重みを動的に割り当て、ルータを2つの目的、すなわちクロスモーダルな全体的なアライメントと言語表現のデカップリングを学習する。特に、バインディングとルーティングの空間はどちらも軽量ネットワークのみを必要とするため、OmniBindは非常に訓練効率が良い。最大の30Bモデルを学ぶには、単に不正なユニモーダルデータと、1つの8-4090ノードで約3日間を要します。広範囲にわたる実験は、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、あらゆるクエリや構成可能なマルチモーダル理解など、多様なアプリケーションに対するその大きな可能性を強調している。

関連論文リスト

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。 Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文参考訳（メタデータ） (2024-12-12T17:50:39Z)
MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT [11.884646027921173]
分散および異種IoTデータに対するマルチモーダル学習のための新しいデータバインディング手法であるMBBindを提案する。 MMBindは、データの不完全性やドメインシフトの度合いによって、最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-18T23:34:07Z)
Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations [16.036997801745905]
マルチモーダル学習は、機械学習モデルが多様なデータソースを融合し利用できるようにする上で重要な役割を果たす。 ImageBindのような最近のバインディング手法では、固定アンカーのモダリティを使用して、アンカーのモダル埋め込み空間内のマルチモーダルデータをアライメントする。我々はCentroBindを提案する。CentroBindは、固定アンカーを必要としない、シンプルだが強力なアプローチである。
論文参考訳（メタデータ） (2024-10-02T23:19:23Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、あらゆるエンコーダを最小限の微調整なしで競争力のあるマルチモーダルモデルに変換する汎用的な融合フレームワークである。本研究では, MM-Legoをモデルマージ法として用いることで, 微調整を伴わずに, エンドツーエンド融合モデルとの競合性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-05-30T11:14:01Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。 SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文参考訳（メタデータ） (2024-04-22T17:56:09Z)
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-02-19T15:33:10Z)
Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with Optimal Transport [24.930976128926314]
M3DN (Multi-modal Multi-instance Multi-label Deep Network) を提案する。 M3DNは、M3学習をエンドツーエンドのマルチモーダルディープネットワークで考慮し、異なるモーダルバッグレベルの予測間で一貫性の原則を利用します。これにより、M3DNSはラベルを予測し、ラベル相関を同時に活用できる。
論文参考訳（メタデータ） (2021-04-17T09:18:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。